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Prefacio 


Este libro se basa en las conferencias de estadística matemática que el autor 
dictó durante muchos años en el tercer curso de la facultad de matemáticas 
de la Universidad de Novosibirsk. Con el andar del tiempo, el curso de 
conferencias ha sido varias veces modificado en busca de una variante que 
fuera, en la medida de lo posible, más armoniosa y accesible, y que al mis- 
mo tiempo correspondiera al estado moderno de esta ciencia. Se probaron 
distintas variantes, comenzando por un curso de carácter principalmente 
prescriptivo, con la exposición de los tipos básicos de problemas (construc- 
ción de estimaciones y criterios y estudio de sus propiedades), y terminando 
por un curso de carácter general, dedicado a la teoría de los juegos, en 
el que la teoría de las estimaciones y la verificación de las hipótesis eran 
no más que casos particulares de un enfoque único. A consecuencia del 
tiempo limitado (un semestre) no fue posible unificar dichas variantes Ínti- 
mamente ligadas, cada una de las cuales poseía, por separado, defectos 
evidentes. En el primer caso, el conjunto de hechos concretos obstaculizaba 
el desarrollo de una opinión general en cuanto al objeto de estudio, La 
segunda variante carecía de resultados concretos sencillos y estaba sobrecar- 
gada de muchos conceptos nuevos, muy complejos, cuya asimilación cons- 
tituía una tarea extraordinariamente difícil. Por lo visto, la más conveniente 
es la variante en la que la exposición de los elementos de la teoría de las 
estimaciones y de la teoría de verificación de las hipótesis concuerda con 
el mantenimiento consecutivo de la línea de búsqueda de los procedimien- 
tos óptimos. 

Los capítulos fundamentales del libro se basan en el material unificado 
de las conferencias impartidas en tiempos diferentes y ampliadas a expensas 
de los apartados cuya presencia ha sido dictada por la propia lógica de 
exposición. El objetivo principal consiste en aclarar el estado actual de la 
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materia en concordancia con su accesibilidad máxima posible y la integri- 
dad y armonía matemática. 

El libro comprende 5 capítulos y 8 suplementos. 

En el capítulo 1 se estudian las propiedades (fundamentalmente asintó- 
ticas) de las distribuciones empíricas, que constituyen la base de la estadísti- 
ca matemática. 

En los capítulos 2 y 3 se ofrecen, respectivamente, la teoría de las estima- 
ciones y la teoría de verificación de las hipótesis estadísticas. Las primeras 
partes de cada uno de estos capítulos están dedicadas a la descripción de 
los posibles enfoques de la resolución de los problemas planteados, así co- 
mo a la búsqueda de los procedimientos óptimos. Las segundas partes ofre- 
cen la construcción de los procedimientos asintóticamente óptimos. 

El capítulo 5 tiene esa misma estructura. En él se expone el enfoque 
general de los problemas de la estadística matemática desde el punto de 
vista de la teoría de los juegos. 

El capítulo 4 está dedicado a los problemas relacionados con dos 
muestras y más. 

Los suplementos del libro se hallan vinculados a las afirmaciones en 
el texto principal, cuya demostración sale fuera del marco de la exposición 
fundamental, ya por su carácter, ya por su dificultad. 

El manual también contiene observaciones bibliográficas que no preten- 
den ser completas, pero que permiten seguir el surgimiento y el desarrollo 
de las principales tendencias de la estadística matemática. Además, por do- 
quier donde ha sido posible, se ha dado preferencia a las alegaciones mo- 
nográficas (como el tipo de literatura más accesible) y no a los artículos 
originales. 

Hoy día existen bastantes manuales de estadística matemática. Entre 
ellos cabe destacar los cuatro siguientes, en cuyas páginas se expone un 
amplio material que refleja el estado actual de la materia: son los libros 
de H. Cramer [25], E. Lehmann [57], S. Zacks [95], I.A. Ibraguímov y 
R.Z. Jasminski [48]. Pero la máxima influencia en la escritura de la obra 
presente fue ejercida por las monografías [48] (algunas ideas de este libro 
se han utilizado en los $$ 23—25, 27—29 del cap. 2) y [57] (la exposición 
de los $$ 5—8 del capítulo 3 se asemeja, por su contenido, a los respectivos 
apartados de [57)). La demás exposición está poco relacionada, según su 
estructura, con los libros mencionados. 

Hay muchas otras obras que ocupan un lugar notable en la literatura 
estadística (tales como los libros de Blackwell y Girshak [7], Kendall y 
Stuart [49, 50), Cox y Hinkly [23], Ferguson [33], Rao [76] y una serie 
de otros — no hay posibilidad de presentar su enumeración completa), pero 
por su espíritu y por la selección del material, estos trabajos se distinguen 
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considerablemente de la monografía que se ofrece a la atención de los 
lectores ”. 

A la par cor: los resultados y enfoques conocidos, en el libro presente 
se han incluido algunos apartados nuevos que simplifican la exposición del 
material, se han hecho varias mejoras metodológicas y se han utilizado 
algunos resultados nuevos, así como resultados que se publican por primera 
vez en la literatura monográfica. 

A continuación se ofrece una descripción breve de la estructura metodo- 
lógica del libro (véanse también el índice y los prefacios breves de cada 
uno de los capítulos). 

En los $$ 1 y 2 del capítulo 1 se intrducen los conceptos de muestra 
y de distribución empírica y se establece el teorema de Glivenko — Cantelli, 
el cual puede considerarse como un hecho fundamental que constituye la 
base de las deducciones estadísticas. 

En $ 3 se introducen dos tipos de estadísticas (de los tipos 1 y II) que 
comprenden la inmensa mayoría de las estadísticas prácticamente interesan- 
tes, las cuales se definen como valores G(Ps) de las funcionales G (que 
satisfacen ciertas condiciones) de la distribución empírica P4. Más adelante, 
en los $$ 7 y 8 se establecen los teoremas del límite de distribución de dichas 
estadísticas. Esto simplifica la exposición posterior y permite no citar, para 
cada estadística concreta, prácticamente los mismos razonamientos que no 
se refieren, además, a la esencia de la cuestión. 

En el $ 5 han sido reunidos los teoremas auxiliares (que en el libro se 
denominan “teoremas de continuidad”) sobre la convergencia de las distri- 
buciones y la convergencia de sus momentos. Esto también simplifica la 
exposición posterior. 

En el $ 6 (no obligatorio en la primera lectura del libro) se establece 
que la función empírica de distribución Fx(t) es un proceso poissoniano 
condicional, y se ofrece la enunciación del teorema (demostrado en el suple- 
mento 1) de la convergencia des proceso Va(F5(1) — F(t)) hacia el puente 
browniano. 

En el $ 10 se introducen las distribuciones empíricas suavizadas que per- 
miten aproximar no sólo la propia distribución, sino también su densidad. 

En el $ 3 del capítulo 2, dedicado a las estimaciones de los parámetros 
desconocidos, se introduce un método único de construcción de las estima- 
ciones, denominado "método de sustitución“. Este consiste en que la esti- 
mación 0* para el parámetro 6, representado en forma de la funcional 
0 = G(P) de la distribución P de la muestra, es preciso buscarla en forma 


” En el año 1983 apareció un magnífico libro de E. Lehmann [58], en el cual, en adición 
a [57], sê expone la actual teoría de estimación. 


16 PREFACIO. 


de 0* = G(P5), donde P} es la distribución empírica. Todas las estimaciones 
"razonables" usadas en la práctica son estimaciones Cs sustitución. La opti- 
mación de una estimación se alcanza eligiendo una funcional conveniente 
G. Si la estadística 9” = G(Px) es de los tipos 1 ó IL, los teoremas del capítu- 
lo 1 permiten establecer en seguida la validez de estas estimaciones y su 
normalidad asintótica, En los $$ 4 y 5, este enfoque es ilustrado por las 
estimaciones obtenidas mediante el método de momentos y el método de 
distancia mínima. Desde esas mismas posiciones también se podrían exami- 
nar las estimaciones de máxima verosimilitud ($ 6), pero su estudio inme- 
díato da la posibilidad de obtener resultados más profundos, que serán 
necesarios ulteriormente. 

La comparación de las estimaciones del capítulo 2 se realiza a base de 
dos enfoques: estándar o medio cuadrático (se comparan Mo (0° — 0)? y 
asintótico (se comparan las varianzas de la distribución límite va(0* — 6) 
en la clase de estimaciones asintóticamente normales). En el caso para- 
métrico, esto permite destacar 3 tipos de estimaciones óptimas: estima- 
ciones eficientes en las clases Ko, con un desplazamiento fijo b, y 
estimaciones bayesianas y minimax. A base de esos mismos principios se 
separan las clases de estimaciones asintóticamente Óptimas en el enfoque 
asintótico. Para construir las estimaciones eficientes se utilizan los siguien- 
tes métodos tradicionales: el primero tiene carácter cualitativo y está vincu- 
lado al principio de suficiencia ($$ 12—14); el segundo se basa en las 
relaciones cuantitativas que se deducen de la desigualdad de Rao — Cramer 
($ 16); y el tercero se halla relacionado con las consideraciones de inva- 
riación ($$ 17 y 19) que permiten reducir la clase de las estimaciones someti- 
das a examen. 

Los $$ 20—30 están dedicados a la determinación de las estimaciones 
asintóticamente óptimas y al estudio de las propiedades asintóticas de la 
función de verosimilitud. El párrafo 20 contlene la desigualdad integral del 
tipo Rao — Cramer que permite, en particular, obtener criterios simples 
de carácter asintóticamente bayesiano y minimax de las estimaciones, así 
como fundamentar la separación de cierta subclase de estimaciones Ko a 
la cual conviene limitarse en búsqueda de estimaciones asintóticamente efi- 
cientes. Esto da la posibilidad de establecer inmediatamente en el $ 25, me- 
diante el estudio de las propiedades asintóticas de las estimaciones de 
verosimilitud máxima, el carácter asintóticamente bayesiano y minimax de 
las estimaciones mencionadas, así como su eficiencia asintótica en Ko. Los 
párrafos 21—24 tienen carácter auxiliar. La estimación de los parámetros 
por intervalos se examina en los $$ 31 y 32 y también en el $ 8 del capítulo 
3. 

El capítulo 3 está dedicado a la verificación de las hipótesis. En los 
$$ 1 y 2 se examina el caso de un número finito de hipótesis simples. Se 
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destacan (de un modo análogo a la teoría de estimación) tres tipos de crite- 
rios óptimos: los más potentes en sus subclases, los bayesianos y los mini- 
max. Se establecen las relaciones entre estos criterios y se determina su 
forma evidente. Además, las consideraciones se basan en el principio 
siano (y no en el lema de Neyman — Pearson) lo que, a nuestro j 
simplifica la exposición y hace más comprensible el material. En el $ 3 se 
examinan los enfoques asintóticos del cálculo de los criterios para verificar 
dos hipótesis simples y se realiza su comparación. En el $ 4 se analiza el 
planteamiento general del problema sobre la verificación de dos hipótesis 
compuestas y se definen las clases de criterios óptimos (uniformemente más 
potentes, bayesíanos y minimax). El párrafo 5 está dedicado a la búsqueda 
de criterios uniformemente más potentes en los casos cuando esto es po- 
sible. En los $$ 6 y 7 se resuelve el mismo problema, pero en las clases 
de criterios contraídos a base de consideraciones de no desplazamiento y 
de invariación. Además, al igual que en los $$ 1 y 2, las consideraciones 
se basan en el enfoque bayesiano. En el $ 8 se construyen, con ayuda de 
los resultados obtenidos, los conjuntos confidenciales más exactos. En el 
$ 9 se examinan los criterios bayesianos y minimax. Los párrafos 10 y 13 
están dedicados al criterio de la relación de verosimilitud, Este criterio re- 
sulta uniformemente el más potente en muchos casos particulares y posee 
carácter asintóticamente bayesiano para conjeturas bastante amplias. El es- 
tudio de las propiedades de optimación asintótica del criterio de la relación 
de verosimilitud continúa en los $$ 15—17. En el $ 11 se establece el valor 
óptimo de este criterio en los problemas del análisis sucesivo. Los párrafos 
14 y 15 están dedicados a la búsqueda de criterios asintóticamente óptimos 
para verificar las hipótesis afines, y se ha encontrado su forma explícita 
simple para los principales problemas estadísticos. 

Una particularidad importante de los tres primeros capítulos es el hecho 
de que en ellos se examinan tan sólo los problemas estadísticos relacionados 
con la utilización de una muestra. 

Como ya fue señalado, el capítulo 4 del libro está dedicado a los proble- 
mas de dos muestras y más. A ellos pertenecen, antes que nada, los proble- 
mas sobre la homogeneidad (completa o parcial, $$ 1 y 2) y los problemas 
de regresión ($ 3) y del análisis de varianza ($ 4). A base de los resultados 
del capítulo 3, para los problemas de homogeneidad (en el caso paramétri- 
co) se han construido los criterios asintóticamente óptimos, suponiendo 
que las hipótesis alternativas son semejantes a la hipótesis principal sobre 
la homogeneidad. Para los problemas de regresión (tanto para la regresión 
lineal como para la relacionada con las funciones arbitrarias) se han haila- 
do, con ayuda de los resultados de los capítulos 2 y 3, las estimaciones 
eficientes de los parámetros desconocidos y se han construido los criterios 
para verificar las hipótesis principales. También han sido examinados los 
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llamados problemas de reconocimiento de imágenes ($ 5), los cuales, por 
lo visto, aparecen por primera vez en la literatura didáctica. 

El capítulo 5 está dedicado al enfoque general de los problemas de esta- 
dística desde el punto de vista de la teoría de los juegos. Este enfoque 
contribuye a la formación de una opinión general acerca del objeto de estu- 
dio de la estadística matemática y permite generalizar muchos resultados 
de los capítulos 2 y 3. En el $ 2 se exponen los conceptos y resultados 
principales de la teoría ”ordinaria' de los juegos (se examinan únicamente 
los juegos de dos personas). En particular, se establecen las relaciones entre 
los tipos principales de estrategias óptimas: bayesianas, minimax y las uni- 
formemente mejores en las subclases. En el $ 3 se estudian los juegos esta- 
dísticos. En el $ 4 se enuncia y se demuestra el llamado principio bayesiano 
que permite reducir el problema de búsqueda de la resolución estadística 
bayesiana a un problema mucho más fácil de construcción de la estrategia 
bayesiana para el juego ordinario de dos personas. En el $ 5 se analizan 
los principios de suficiencia, de no desplazamiento y de invariación para 
construir las resoluciones uniformemente mejores en las subclases respecti- 
vas. Los párrafos 6—8 están dedicados a la búsqueda de las reglas decisivas 
asintóticamente óptimas. En el $ 6 se estudian las estimaciones asintótica- 
mente óptimas de los parámetros para la función arbitraria (y no sólo 
cuadrática) de pérdidas. En este caso se logra establecer los resultados seme- 
jantes a los del cap. 2 sobre la optimación asintótica de las estimaciones 
de verosimilitud máxima. En los $ 7 y 8 se examinan los criterios asintótica- 
mente óptimos para la función arbitraria de pérdidas. En el $ 7 se de- 
muestra el criterio asintóticamente bayesiano de la relacion de 
verosimilitud; en el $ 8 se establece el indicio Mmite de optimación de los 
criterios para verificar las hipótesis semejantes (generalización de los resul- 
tados de los $$ 14 y 15 del cap. 3 para el caso de una función arbitraria 
de pérdidas). 

Entre los Suplementos cabe destacar el Suplemento VII donde se de- 
muestran dos teoremas fundamentales de la teoría de los juegos estadísticos 
y cuya lectura exige una preparación matemática más alta. 

El libro tiene muchas finalidades. Claro está que en su volumen comple- 
to, el mismo se asemeja más al programa mínimo para el curso de postgra- 
duados de la especialidad de "Estadística Matemática", que a un libro de 
texto para los estudiantes. Pero en esta obra se prevé un sistema de medidas 
que facilitan su primera lectura y que la hacen accesible también para los 
estudiantes. Los párrafos de elevada dificultad o "más avanzados“ en cuan- 
to a su contenido están anotados con un asterisco y conviene omitirlos 
al leerlos por primera vez, así como el texto escrito con letra gallarda. Ade- 
más, la exposición de los casos técnicamente más complicados, relaciona- 
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dos con el parámetro multidimensional, casi siempre se ofrece en apartados 
y párrafos independientes que también pueden ser omitidos. 

Los profesores de los centros de enseñanza superior que ya conocen, 
al menos parcialmente, la asignatura pueden escoger del libro un conjunto 
de párrafos (puede haber muchas variantes) a base de los cuales (no es 
obligatorio utilizarlos por completo) es posible componer un curso se- 
mestral de estadística matemática. He aquí una de las variantes: $$ 1, 3 
y 5 del capítulo 1; $$ 2—4, 6—12, 14, 16, (21, 23—25), 31 y 32 del capítulo 
2; 551, 2, 4, 5, 12 (13, 16) del capítulo 3. Los párrafos entre paréntesis 
están dedicados a los procedimientos asintóticamente óptimos. Según el 
grado de preparación de los estudiantes, es necessario organizar la enseñan- 
za de dichos párrafos de la forma más accesible u omitirlos por completo. 

La lectura del libro supone el conocimiento del curso de la teoría de 
las probabilidades conforme al volumen del manual de A.A. Borovkov [11]. 
Las remisiones a este libro, a diferencia de otras, aparecen en los lugares 
que el lector, por lo visto, debe conocer, y sirven fundamentalmente para 
hacer memoria. 

La numeración de los párrafos en cada capítulo del libro es indepen- 
diente, así como la de los teoremas (lemas, ejemplos, etc.) en cada párrafo. 
A fin de hacer más cómoda la lectura se utilizan diversos sistemas para 
las referencias a los teoremas, lemas, ejemplos, fórmulas, etc., según su ale- 
jamiento del pasaje que se lee. Si se hace una referencia al teorema 1 o 
a la fórmula (12) del párrafo que se lee, la misma se escribirá del siguiente 
modo: teorema 1, fórmula (12). Si se trata del teorema 1 y la fórmula (12) 
de uno de los párrafos precedentes de este capítulo (por ejemplo, del $ 13), 
la referencia tendrá la forma siguiente: teorema 13.1, fórmula (13.12). Por 
último, si se hacen referencias a otro capítulo, aparecerá, además, el indica- 
dor del número de este último (primera cifra). Por ejemplo, el teorema 
2.13.1] denota el teorema 1 del $ 13 del capítulo 2, y la fórmula (2.13.12) 
denota la fórmula (12) del $ 13 del capítulo 2. Eso mismo corresponde a 
la designación de los párrafos. La referencia al $ 13 significa la remisión 
al $ 13 de este capítulo, y la referencia al $ 2.13 significa la remisión al 
$ 13 del capítulo 2. 

El signo < significa la terminación de la demostración. 

Para facilitar la lectura del libro, al final de éste se da la lista de las 
principales designaciones y se expone el índice alfabético de materias. 


A.A. Borovkov 


y 


Introducción 


En el presente libro se exponen los fundamentos de la parte de las matemá- 
ticas que se llama estadística matemática. Para abreviar, esta última suele 
denominarse simplemente estadística. Sin embargo, conviene tener presente 
que tal abreviación sólo es posible cuando existe una buena comprensión 
mutua, puesto que, de por sí, el término "estadística* corresponde general- 
mente a un concepto algo distinto. 

¿Qué representa la asignatura de estadística matemática? Se pueden ci- 
tar diversas "definiciones“ descriptivas que reflejan, en mayor o menor gra- 
do, el contenido de esta parte de las matemáticas. Una de las definiciones 
más simples y aproximadas se basa en la comparación relacionada con el 
concepto de selección de muestras de la población madre, así como con 
el problema de distribución hipergeométrica que se examina, por regla ge- 
neral, al principio del curso de teoría de las probabilidades. Conociendo 
la composición de la población madre, allí se estudian las distribuciones 
para la composición de una muestra aleatoria. Es un problema directo típi- 
co de la teoría de las probabilidades. No obstante, frecuentemente también 
es preciso resolver problemas recíprocos cuando se conoce la composición 
de la muestra y, basándose en ella, es necesario determinar cómo era la 
población madre. Tales tipos de problemas recíprocos son los que en reali- 
dad constituyen, hablando metafóricamente, la asignatura de estadística 
matemática. 

Precisando algo esta comparación se puede decir lo siguiente: en la te- 
oría de las probabilidades, conociendo la naturaleza de cierto fenómeno, 
aclaramos cómo se comportarán (cómo están distribuidas) unas u otras 
características sujetas a estudio, que pueden ser observadas en los experi- 
mentos. En la estadística matemática sucede al revés: como material de 
partida sirven los datos experimentales (generalmente las observaciones de 
las variables aleatorias) y es necesario adoptar uno u otro punto de vista 
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o tomar una decisión determinada sobre la naturaleza del fenómeno sujeto 
a examen. Ahora bien, aquí se trata de uno de los aspectos más importantes 
de la actividad humana: el proceso de conocimiento. La tesis de que ”el 
criterio de la verdad es la práctica“ está directamente relacionada con la 
estadística matemática, puesto que precisamente esta ciencia estudia los 
métodos (en el marco de los modelos matemáticos exactos) que permiten 
responder a la pregunta de si corresponde o no la práctica, representada 
en forma de los resultados del experimento, a la referida noción hipotética 
acerca de la naturaleza del fenómeno, 

En este caso es necesario subrayar que, al igual que en la teoría de las 
probabilidades, nos interesarán no los experimentos que permiten sacar de- 
terminadas deducciones univocas sobre los fenómenos examinados en la 
naturaleza, sino los experimentos cuyos resultados son sucesos aleatorios, 
Con el desarrollo de la ciencia, los problemas de tal género desempeñan 
un papel cada vez más importante, puesto que con el aumento de la preci- 
sión de los experimentos es cada vez más difícil evitar el "factor aleatorio“ 
relacionado con diversos tipos de obstáculos y con nuestras limitadas posi- 
bilidades de medición y de cálculo. 

La estadística matemática forma parte de la teoría de las probabilidades 
en el sentido de que cada problema de la estadística matemática cs, en esen- 
cia, un problema (a veces muy peculiar) de la teoría de las probabilidades. 
Pero la estadística matemática, como tal, también ocupa una posición inde- 
pendiente en la clasificación de las ciencias. La estadística matemática 
puede considerarse como la ciencia del llamado comportamiento inductivo 
del hombre (y no sólo del hombre) en condiciones cuando éste, a base de 
su propia experiencia, debe tomar decisiones con las mínimas pérdidas para 
a. 

La estadística matemática también se llama teoría de las decisiones esta- 
dísticas, puesto que la misma puede ser caracterizada como la ciencia de 
las soluciones óptimas (las dos palabras siguientes requieren aclaración) ba- 
sadas en los datos estadísticos (experimentales). Los planteamientos preci- 
sos de los problemas se darán posteriormente en el texto principal del libro. 
Aquí nos limitaremos a citar tres ejemplos de los problemas estadísticos 
más elementales y típicos. 

Ejemplo 1. Para muchos artículos su plazo de servicio es uno de los 
parámetros principales que caracteriza la calidad. No obstante, el plazo 
de servicio de un artículo (digamos, de una bombilla eléctrica) es, por regla 
general, aleatorio y no se puede determinar de antemano. La experiencia 
muestra que si el proceso de producción es, en cierto sentido, homogéneo, 
los plazos de servicio £1, £x ... de los respectivos artículos 1, 2 etc. pueden 


° Esta cuestión se examina más detalladamente en (46) 
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considerarse como magnitudes independientes igualmente distribuidas. El 
parámetro que nos interesa y que determina el plazo de servicio es natural 
identificarlo con el número $ = Mér. Uno de los problemas estándar con- 
siste en determinar a qué es igual 0. Para hallar este valor se toman 7 artícu- 
los fabricados y los mismos se someten a comprobación. Sean xı, X2, 
«=» Xn los plazos de servicio de dichos artículos comprobados. Sabemos que 


1 ad 


para n —» co, Por eso es natural esperar que, al ser n suficientemente grande, 


el número x = 1) Jx resultará próximo a 9 y permitirá, en cierta medida, 
un 

responder a las cuestiones planteadas. Es evidente que estamos interesados 

en que el número requerido de observaciones n sea el menor posible, y 

que nuestra estimación del número 0 sea la más exacta posible (el aumento 

del parámetro 6, al igual que su reducción, conducirán a pérdidas mate- 

riales). 

Ejemplo 2. Un radar explora, en los instantes de tiempo ti, fz, «.s In, 
una parte dada del espacio aéreo con el fin de localizar allí cierto objeto. 
Designemos por Xi, ..., Xa los valores de las señales reflejadas que han sido 
recibidas por el radar. Si en la parte observada del espacio, el objeto que 
nos interesa no está presente, los valores de xy pueden considerarse como 
variables aleatorias independientes distribuidas al igual que cierta variable 
aleatoria £ cuya naturaleza está determinada por el carácter de las interfe- 
rencias diferentes. Pero si en el transcurso de todo el período de observa- 
ciones, el objeto se encontraba en el campo de visión, entonces x; con- 
tendrán, al igual que las interferencias, la señal ”útil“ a, y los valores 
de x; se distribuirán como £ + a. Ahora bien, si en el primer caso las obser- 
vaciones de x; tenían la función de distribución F(x), en el segundo caso 
su función de distribución tendrá la forma F(x — a). Por la muestra de 
Xi Xa es preciso decidir cuál de estos dos casos tiene lugar, o sea, si 
te o no, en la parte observada del espacio, el objeto que nos interesa. 

En este problema será posible señalar, en cierto sentido, ”la regla óptima 
decisiva“ que resolverá el problema planteado, con errores mínimos. No 
obstante, el problema enunciado puede ser complicado del modo siguiente, 
Primero falta el objeto y luego, a partir de la observación de número 9 
desconocido, el mismo aparece. Hay que determinar, lo más exactamente 
posible, el instante 9 de su aparición. Es el llamado "problema de de- 
sarreglo que también tiene una serie completa de otras interpretaciones 
importantes para su aplicación. 
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Ejemplo 3. Cierto experimento se realiza al principio n, veces en condi- 
ciones A y luego m veces en condiciones B. Designemos por Xi, ..., Xn, 
€ Yn ..., Ym los resultados de estos experimentos en condiciones A y B, 
respectivamente. Es necesario contestar a la pregunta: ¿se reflejará el cam- 
bio de las condiciones del experimento en sus resultados? Con otras pa- 
labras, si designamos por Pa la distribución de xy, 1 <¿< m, y por Pa, 
la distribución y, 1 < į < m, entonces la cuestión consistirá en contestar 
a la pregunta si se cumplirá o no la relación P4 = Pp. 

Por ejemplo, si hay que determinar si influye o no cierto preparado 
en.el desarrollo, digamos, de las plantas o los animales, entonces paralela- 
mente se hacen dos series de experimentos (con el preparado y sin éste) 
cuyos resultados es preciso saber compararlos. 

A menudo también surgen problemas más complejos cuando una cues- 
tión análoga se plantea para muchas series de observaciones realizadas en 
condiciones diferentes. Si los resultados de tales observaciones dependen 
de las condiciones, suele ser necesario comprobar el distinto carácter de 
esta dependencia (el llamado problema de regresión). 

El ejemplo 3 y los problemas más complejos anteriormente menciona- 
dos pertenecen a la clase de problemas estadísticos con dos muestras y más. 
Los mismos se examinan en el capítulo 4. 

Podríamos continuar la lista de ejemplos de problemas estadísticos típi- 
cos, distintos en cuanto a su complejidad y a su esencia. No obstante, para 
ellos serán comunes las siguientes dos circunstancia: 

1, No tendríamos ninguna dificultad si conociéramos las distribuciones 
de los resultados de las observaciones que figuran en los problemas. 

2. En cada uno de estos problemas debemos, a base de los resultados 
de los experimentos, tomar cierta decisión en cuanto a la distribución de 
las observaciones disponibles (de aquí precisamente proviene la denomina- 
ción ”Teoría de las resoluciones estadísticas mencionada más arriba). 

En virtud de estas dos advertencias, para la exposición del material ulte- 
rior y, en particular, para la resolución de los problemos citados como 
ejemplos, adquiere importancia de principio el siguiente hecho. Según los 
resultados de las observaciones xı, ..., Xa de cierta variable aleatoria £, es 
Posible, con grandes valores de n, restablecer, tan exactamente como se 
quiera, la distribución desconocida P de dicha variable aleatoria. La afir- 
mación análoga también es válida para toda funcional 0 = 0(P) de esta 
distribución desconocida. 

En este hecho se basa la estadística matemática. A él y a planteamientos 
más precisos de los problemas está dedicado el capítulo 1. 


CAPÍTULO I 


Muestra. Distribución empírica. 
Propiedades asintóticas de las estadísticas. 


En los $$ 1—4 se introducen los conceptos de muestra y de distribución empírica y se exami- 
nan sus propiedades elementales, principalmente asintóucas, que son la base de la estadística 
matemática. 

En el $ 5 se exponen los llamados teoremas de continuidad (sobre la convergencia de 
las distribuciones de las funciones de las sucesiones de variables aleatorias) que se utilizan 
en todo el libro 

Los $5 6—10 están dedicados a propiedades asintóticas más finas de las distribuciones 
empíricas y al estudio de las distribuciones límites para los tipos principales de estadísticas. 


$ 1. Concepto de muestra 


El conjunto de resultados de las observaciones sirve de material inicial para 
toda investigación estadística. En los casos elementales, estos resultados 
no son más que los valores experimentales (obtenidos en las pruebas) de 
cierta variable aleatoria £. Ya hemos señalado que en los problemas de esta- 
dística, la distribución P de esta variable aleatoria se desconoce por lo me- 
nos parcialmente, 

Supongamos que G es un experimento relacionado con la variable ale- 
atoria £. Formalmente, para este experimento debemos construir un modelo 
matemático del cual forme parte el espacio probabilístico (2; By; P), y 
asignarle, de modo conveniente, la función medible que precisamente se 
denomina variable aleatoria £ (véase [11]). El espacio ( Z Ba, P), sin li- 
mitar la generalidad, puede considerarse ”muestral“ (véase [11]), o sea, po- 
demos estimar que 2” es el espacio de los valores de ¿(x) = x. En este 
caso P se puede denominar distribución de ¿. 

Si £ es una variable aleatoria numérica, 2”es la recta numérica R; si 
£ es un vector, Z= R”, m > 1. En lo sucesivo tendremos en cuenta, por 
regla general, sólo estos dos casos, o sea, por 2” entenderemos R (caso uni- 
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dimensional) o bien R”, m > 1 (caso multidimensional). En calidad de 
Ba se elige con más frecuencia el o-álgebra de conjuntos de Borel °, 

Si se sabe de antemano que P está concentrada en la parte B € By del 
espacio 2; por puede resultar cómodo entender B, y por Be , la 
contracción del o-álgebra Ba sobre B. 

Examinemos n repeticiones independientes del experimento G (véase 
[11], p. 38) y designemos por xı, ..., Xa el conjunto de observaciones obteni- 
das. El vector 


Kalkis -s Xn) 


se llama muestra de volumen n de la población con distribución P. A veces 
se utilizan variantes más breves o más completas de este término: "muestra 
de la distribución P“ o "muestra simple de volumen n de la población 
madre con distribución P“, 

Simbólicamente, la relación ”X, es una muestra de la distribución P“ 
se escribirá, por medio del signo E, del modo siguiente: 


X,€P. (Mm 


Tal forma de escritura también será utilizada para otras variables aleato- 
rias. Por ejemplo, la relación 


teP a) 


significará que £ tiene la distribución P. Tal uso del símbolo € se halla 
en correspondencia con (1), puesto que esta última ha sido determinada 
para cualquier m, en particular, para 7 = 1. 

Si £ y n son dos variables aleatorias (dadas, hablando en general, en 
diferentes espacios) con iguales distribuciones, designaremos este hecho por 
É 3” así que si Xn e Y, son dos muestras de igual volumen de la distribu- 


ción P, podemos escribir Xa = Ya. 


En los segundos miembros de (1) y (2), en vez de la distribución P puede 
figurar, a veces, la función de distribución correspondiente a P. Así que 
si F(x) = P(( — œ, x)), la escritura de 

Xx EF 


será idéntica a (1). 
El propio concepto de "muestra de la población madre“ también se 


” Muchas partes del libro también serán válidas en una situación más general, cuando 
Z es un espacio métrico arbitrario con un s-álgebra Bg- de conjuntos de Borel, o sea, con 
un o-álgebra originada por los conjuntos abiertos de 2 
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encuentra al examinar modelos probabilísticos elementales relacionados 
con la extracción de bolas de una urna, en la definición clásica de la proba- 
bilidad (véase [11], $ 2 cap. 1). Cabe señalar que la definición de la muestra, 
introducida más arriba, se halla en plena correspondencia con este concep- 
to introducido anteriormente y, en esencia, coincide con él. Si x; (o la va- 
riable aleatoria E) pueden adoptar sólo s valores an ..., ds, y las 
probabilidades de estos valores son racionales, o sea, 


Pezas, D Nen, 
Juí 


entonces la muestra X, puede representarse como el resultado del 
”muestreo con devolución“ (en el sentido del cap. 1 [11]) de una urna con 
N bolas, entre las cuales N; bolas están marcadas con a, Nz bolas con 
M, ete 

Como objeto matemático la muestra, X = X, (el índice n será con fre- 
cuencia omitido) no es sino la variable aleatoria (xı, Xa) con valores 
en el espacio ”n-dimensional* 2" = Zx PX ... X Z y con una distribu- 
ción que para B = B, X Bz X ... X Bn, B€ Bose determina por las 
igualdades 


P(X € B) = P(x € Bi, 


” 
Xna € Br) = H Pos €B) 6) 


Con otras palabras, la distribución P sobre 2”es el producto directo múl- 
tiplo de n de las distribuciones ”unidimensionales'* dadas. 

En lo que concierne a las designaciones de la distribución P y otras, 
nos sujetaremos a las siguientes acuerdos que ya hemos utilizado parcial- 
mente en (3) y que nunca provocarán equivocaciones. 

1. Utilizaremos el mismo simbolo (en particular, P) para las distribu- 
ciones en (2 Bo-) y para el producto directo de estas distribuciones en 
(2”, Biz) (véase (3), donde B3- es el o-álgebra de los conjuntos de Borel 
en 2”. La diferencia será determinada tan sólo por el argumento de la 
función P. 

2. La probabilidad de llegada de la variable X, digamos, de 83- al con- 
junto B, a veces será cómodo designarla por P(B), y a veces por P(x € B). 
Esto es lo mismo, ya que 2” es el espacio muestral de X, 

3. Por último, utilizaremos el símbolo P para designar el concepto gene- 
ral de probabilidad (o sea, la probabilidad correspondiente a cualesquiera 
otras variables aleatorias sin concretizar el espacio probabilístico). 

En virtud de (3) podemos considerar la muestra X como un suceso ele- 
mental en el espacio probabilístico muestral (2, 82-P) (véase [11] capítu- 
lo 3, $2). Señalemos que en cuanto a la muestra X admitiremos una 
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interpretación doble de esta designación y del objeto: como variable aleato- 
ria y como vector de los datos numéricos reales obtenidos en los experimen- 
tos realmente realizados. Como muestra la experiencia, tal interpretación 
doble es bien tolerable y no suscita equivocaciones, aunque admite la exis- 
tencia simultánea de las notaciones que tienen la forma P(x; < 1) = F(t) 
y la forma xı = 0,74, x2 = 0,83, etc. 

La muestra es el objeto inicial principal en los problemas de la estadísti- 
ca matemática. Sin embargo, en la práctica, sus elementos xı, X2, ... no 
siempre, ni mucho menos, son independientes. En nuestros análisis tampo- 
co excluiremos tal posibilidad. Además, para no hacer menciones adiciona- 
les, en caso de observaciones dependientes consideraremos que se trata de 
una muestra de volumen n = 1, mientras que las observaciones no son más 
que las coordenadas del vector xı (en efecto, la naturaleza del espacio 2'es 
arbitraria). 

En lo sucesivo tendremos que examinar a menudo las muestra X, de 
volumen n indefinidamente creciente. En tales casos es cómodo suponer 
que se da la muestra Xe = (xı, X2 ...) de volumen infinito, y X = X, no 
es sino la población de sus primeras n coordenadas. Por muestra de volu- 
men infinito Xe entenderemos el elemento del espacio probabilístico 
muestral (2", BZ-, P), donde 2"” es el espacio de sucesiones (Xt, Xz, ...); 
o-álgebra BZ- ha sido generada por los conjuntos QANEB) Bie Br, 


N= 1, 2, ...; la distribución P posee la propiedad (3). Según el teorema 
de Kolmogórov ([11]), tal distribución siempre existe. Por consiguiente, la 
suposición sobre la existencia de la muestra X.. de volumen infinito de nin- 
gún modo limita la generalidad. 

La propia sucesión infinita (muestra infinita) Xæ, en los estudios de 
carácter teórico-probabilístico puede interpretarse como un suceso elemen- 
tal (compárese con [11)). 

En los casos cuando necesitamos entender X, como un subvector X 
escribiremos 

Xa = [Xo], 
donde [-]n es el operador de proyección de 2”” en 2”, determinado de 
modo evidente. Con arreglo a lo dicho anteriormente, la notación 


Xo EP 


significará que X» es la muestra de volumen infinito de la distribución P. 

Si surge la necesidad de señalar especialmente el hecho de que no se 
trata de la distribución en ( 2”, B3), sino en ( 2”, BZ-) o en (2 Br) 
para n < co, también utilizaremos la designación P” (P”). La conservación 
de los índices superiores ”so** y ”n“ en todo el texto llevaría a designaciones 
muy complejas. 
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$ 2. Distribución empírica (caso unidimensional) 


Sea dada la muestra X = (xr, ..., Xn) € P, 11€2'= R. Examinemos la 
recta real R con o-álgebra de los conjutos de Borel Y en la distribución 
discreta P} sobre (R, B) concentrada en los puntos xi, ..., Xa, para la cual 
la probabilidad del valor x; se supone igual a 1/n. En otros términos, para 
todo BED, según la definición, 


ena) =D, v 


donde v(B) es el número de elementos de la muestra X que se encuentran 
en el conjunto B, La distribución P% se llama distribución empírica cons- 
truida según la muestra X (o correspondiente a la muestra X). Esta distribu- 
ción también puede representarse de la forma siguiente. Sea I(B) la 
distribución concentrada en el punto x: 


ne = fo x6 


n 
entonces, evidentemente, (8) = D, LB), 
iga) 


PB) = 29 D). o 


lar 


Está claro que para todo B de Borel, Ps(B) como función de la muestra 
es una variable aleatoria. Ahora , se trata de una función aleatoria 
de los conjuntos, o bien de una distribución aleatoria, 

Supongamos ahora que X» € P, Xn = [Xu], y n — œ. Entonces ob- 
tendremos una sucesión de distribuciones empíricas Ph. El hecho interesan- 
te consiste en que esta sucesión se aproxima indefinidamente a la 
distribución inicial P de la variable aleatoria sujeta a observación, Este 
hecho tiene importancia de principio para toda la exposición sucesiva, ya 
que el mismo muestra que la distribución desconocida P puede ser restable- 
cida tan exactamente como se quiera, basándose en una muestra de volu- 
men suficientemente grande. 


Teorema 1. Sea BEB y Xn = [Xu]. € P. Entonces, para n> o 
P5(B) > P(B). 


La convergencia con la probabilidad 1 aquí se sobreentiende con respec- 
to a la distribución P =P” en (R”, Y”, P). Necesitamos la suposición 
Xa = [Xe]n para que las variables aleatorias P4(B) se den en un solo espacio 
probabilístico. 
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Demostración. Examinemos la definición (2) y notemos que I(B) son 
variables aleatorias independientes igualmente distribuidas, M1, (B) = 
= P(1,(B) = 1) = P(x; € B) = P(B). Como P}(B) es la media aritmética 
de estas variables, nos queda hacer uso de la ley fuerte de los grandes núme- 
ros. < 

El teorema 1 establece la convergencia de P;(B) y P(B) en cada ”punto“ 
de B. No obstante, también tiene lugar una afirmación más fuerte de que 
tal convergencia es, en cierto sentido, uniforme respecto a B. 

Designemos por $ la población de los conjuntos B que son semiinterva- 
los de forma [a, b) con extremos finitos o infinitos y volvamos a suponer 
que Xr = [Xo]. 


Teorema 2 (de Glivenko — Cantelli). 
sup [Px(8) — P(B)| 7 0. 


A decir verdad, con los nombres de Glivenko y Cantelli está relacionada 
una afirmación algo diferente, que se refiere a un concepto importante de 
la función empírica de distribución. Por definición, ésta es la función de 
distribución correspondiente a Pz. En otros términos, se llama función em- 
pírica de distribución F(x) la función 


Fi(x) = Pi((—o, x). 
La variable nFx(x) es igual al número de elementos de la muestra que son 
menores que x. En las condiciones reales, para construir Fs(x) se utiliza 


a menudo el procedimiento siguiente. Los elementos de la muestra (xi, ..., 
Xn) se ordenan de manera creciente, o sea, de ella se forma la sucesión 


Xu S Xa) S ~ S Xm 
que se llama serie variacional. Entonces podemos suponer que 


Fa) =£ para x€ (Xu), Xa+1)) 


donde k recorre los valores de O a n, xo = — o, Xin +1) = co. Evidentemen- 
te, Fs(x) es una función escalonada que tiene saltos de 1/7 en los puntos 
x si todos los valores de x, son diferentes. 

Sea F(x) = P(- œ, x) la función de la distribución £ (o xı, que es lo 
mismo) y Xa = [X]». El teorema de Glivenko — Cantelli consiste en lo 
siguiente: 


Teorema 2A. Si n= «o 
sup | F3) — FOD z 0. 
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Más abajo omitiremos el índice n en las designaciones de Fx y escribire- 
mos simplemente F”. 


Demostración del teorema 2A. Para abreviar supongamos primeramen- 
te que la función Fes continua. Sea e > 0 un número dado, arbitrariamente 
pequeño, de tal modo que el número N = 1/e sea entero. Cómo F es conti- 
nua, podemos señalar los números zo = — %, Zi, ..., ZN- 1, Zw = “o con los 
que 
Fa) = 0, P) =è =d, n Fa) = ke =, n 


en Plz) = 1. 
Para z€ [2x, 2x+1) son válidas las relaciones 


Fl) - F(2) $ Fla.) - Fla) = Fla) - Fur) +e (3) 
Fa) — F(2) > Fla) — F(z +1) = Fla) - Fla) — e. 


Designemos por Ax el conjunto de sucesos elementales w = X en los 
cuales F”(zx) > Far Según el teorema 1, P(Ax) = 1. Por consiguiente, 


para cada w€A = () Az se encontrará un valor de n(w) tal, que para 
kao 
todos los valores de n >n(w) se cumplirá 


(Fa) —- F) <e, k=0,1, n N. (4) 
Pero junto con (3), dichas desigualdades contribuyen a que 
sup |F") — Fa) < 2e. (0) 


Así pues, esta relación tiene lugar para un valor arbitrario de £ > 0, para 
todos los valores de wE€ A y para todos los valores bastante grandes de 
n > n(w). Como P(A) = 1, el teorema para la función continua F se consi- 
dera demostrado. 

Para la función arbitraria F(x), la demostración del teorema se realiza 
absolutamente igual. Se debe sólo hacer uso de la circunstancia siguiente: 
para toda F(x) existe un número finito de puntos -œ = Zo < Zi <... 
a < Zv-1 < Zy = œ con los que 


Fla+i) - Fæ +0) <e k=0,1, .... N-=1 (6) 


(para evidenciar podemos considerar que el conjunto [7,3 contiene todos 
los puntos de los saltos de F que por sus valores superan, por ejemplo, 
£/2). Absolutamente igual que en (3) obtenemos que para z € (Ze, 2x+1), 


Fl) — F(2) < Fla) — F(&+ 1) +6 o 
F'(2) — F(2) >F°(%& + 0) — F(%& + 0) — £. 
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A los conjuntos Ax, que se determinan como antes, les agregaremos 
los conjuntos A£, k = 0, 1, ..., N en los que F"(2 + 0) > Fíza + 0). En- 
tonces, según el teorema 1, P(4g) = P(A£ ) = 1, y en el conjunto A = 

N 


= (N) AxAÉ, P(A) = 1, para valores de n > n(w) bastante grandes será vá- 
k-o 
lida (4), así como las desigualdades 
Fla + 0) - Fæ + 0| <e, k=O, 1, a N. 


Junto con (7) estas desigualdades conducen a (5). < 

El teorema 2A es un caso particular del teorema 2, ya que los conjuntos 
(-%, x) pertenecen a $; por otro lado, el teorema 2 se obtiene fácilmente 
en calidad de corolario del teorema 2A, puesto que para B = [a, b) 


IP3(B) — P(B)| < [F5(b) — F(b)| + |Fa(a) - Fla), 


y, por consiguiente, 
sup (PSC) — PUB)! < sup IF3() — F()| + |F3(a) — Fla) = 0. 


Observación 1. Es fácil notar que los razonamientos de ese mismo géne- 
ro nos permiten, en calidad de población de los conjuntos § en el teorema 
2, tomar las poblaciones de los intervalos (a, b), de los segmentos [a, b) 
y de sus uniones finitas (de número no mayor que cierto N). 

Por otro lado, si en calidad de Ẹ en el teorema 2 se toma una clase 
bastante rica de conjuntos, la afirmación del teorema deja de ser justa. 
Por ejemplo, si Y contiene las uniones de cualquier número finito de inter- 


valos, entonces el conjunto B,= Y (a = 1/n?, xx +1/n)€8, 

P5(B») = 1 y para la distribución uniforme € a [0, 1), P(B,) < 2/n, así que 
sup [P5(B) — P(B) > Pi(B,) — P(Br) > 1. 

Concluyendo este párrafo señalaremos que la representación (2) permite 

obtener para P} teoremas sobre el comportamiento asintótico aún más exac- 


tos que los teoremas del tipo de Glivenko — Cantelli (estos resultados serán 
representados en los ss 4 y 6). Para ilustrar las posibilidades que aquí exis- 


ten recordemos que E en (2) es la suma de las variables aleatorias 
independientes e izda distribuidas en el esquema de Bernoulli 
MI(B) = P(B) = 1) = P(B), 
MKB) = P(B), DI.(B) = P(B)U — P(B)). 
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Por eso, del teorema central del límite se deduce inmediatamente la afirma- 
ción siguiente: 
Teorema 3. PXB) es representable en la forma 


PAB) = P(B) + 20, 6) 


donde la distribución ¥a(B) = L DA. KB) — P(B) converge hacia la 
va i=l 
distribución normal con los parámetros (0, P(BXI — P(B). 
El estudio ulterior de PA(B) en este sentido se ofrece en el $ 6. Teoremas 
más exactos sobre la convergencia con probabilidad 1 se dan en el $4. 


$ 3. Características muestrales. Dos tipos de estadísticas 


1. Ejemplos de características muestrales. Por características muestrales 
suelen entenderse las diversas funcionales medibles de una distribución em- 
pírica o, dicho de otro modo, las funciones de una muestra que se supone 
que son medibles. Entre ellas, los momentos muestrales (o empíricos) son 
los más simples. Llámase momento muestral de orden k el valor de 


al = an = [xao Nu 
fai 


El momento central muestral de orden k es igual a 


A 
aie aro = [a antara) =i Joan. 
Para los momentos muestrales aj y aj”, en la literatura se utilizan desig- 
naciones especiales, X y S*: 


ESI Saa Le. 


imi Ies 


En los problemas estadísticos se usan las características muestrales más 
diferentes. Por ejemplo, la mediana muestral $” es el valor medio de una 
serie variacional, o sea, el valor de ¿* = Xqm) si n = 2m — 1 (impar) y 
$ = (xm) + Xmm+1))/2 si n = 2m (par). Recordemos que por mediana f 
de la distribución continua P se entiende la solución de la ecuación 
F) = 1/2. 
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Un concepto más general es el de cuantila {p de orden p. Es el número 
para el cual F(Sp) = p. Así que la mediana es una cuantila de orden 1/2. 
Si F tiene puntos de discontinuidad (componente discreta) entonces esta 
definición pierde su sentido. Por eso en un caso general utilizaremos la 
definición siguiente: 

Se denomina cuantila +» de orden p de la distribución P el número 


fp = sup (x: F(x) < p). 


Como función de p la cuantila fp no es más que la función F” '(p), inversa 
a F(x). 

Es evidente que, a diferencia de la anterior, esta definición de fp (o 
de P7*(p)) tiene sentido para cualesquiera F(x). 

Es natural que a la par con las medianas muestrales podemos examinar 
las cuantilas muestrales +5 de orden p que por definición son iguales al 
valor de xq), donde /= [mp] + 1, xa) son los términos de la serie va- 
riacional para la muestra X, k = 1, ..., n. Para p = 1/2 utilizaremos la defi- 
nición f* = fj,2 que hemos dado anteriormente (coincide tan sólo con la 
definición dada para n impares). 

2. Dos tipos de estadísticas. Supongamos que se da una función medible 
5 de n argumentos, La característica muestral S(X) = S(x, ..., Xn) a menudo 
también se llama estadística. De lo dicho anteriormente se deduce que cual- 
quier estadística es una variable aleatoria. Su distribución se determina por 
completo mediante la distribución P(B) = P(x, € B) (recordemos que S(X) se 
puede considerar como una variable aleatoria dada en (2”, 8%, P), donde 
P es el producto directo múltiplo de n de las distribuciones unidimensionales 
de xı). 

Destaquemos aquí dos clases de características que se encontrarán fre- 
cuentemente a continuación. Se construirán con ayuda de los dos tipos si- 
guientes de funcionales G(F) de las funciones de distribución F: 

I. Funcionales que tienen la forma 


GIP) = n([gC0dF()), 
donde g es la función dada de Borel; h, la función continua en el punto 
a = [g(x)dFo(x), donde Fo es tal que X € Fo. 

II. Funcionales G(F) continuas en el “punto” Fo en la métrica uniforme: 
G(F”) + G(Fo), si sup 1Fx) — Fo(x)| — 0, los portadores * de las distri- 
buciones de F™ pertenecen al portador de Fo. Aquí, como antes, Fo es la fun- 
ción para la cual X € Fo. 

> El portador Np de la distribución P con la función de distribución F es el conjunto 
para el cual P(N) = 1. 

38030 
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Vamos a definir las clases respectivas de estadísticas con ayuda de la 
igualdad 
S(X) = G(Fr), 


donde F; es la función empírica de distribución. Entonces obtenemos: 
I. Clase de estadísticas de tipo 1, representables en la forma 


SO =h (fears) =h G Feo). 
En 


Esevidente que todos los momentos muestrales tienen la forma delas estadísti- 
n 


cas aditivas 1 D y figuran entre las estadísticas del tipo I. 
imi 

11. Clase de estadísticas que llamaremos estadísticas de tipo II o bien esta- 
dísticas continuas en el punto Fo. 

Está claro que, por ejemplo, la mediana muestral será la estadística conti- 
nua en el punto F si existe la mediana y, F(}) = 1/2 y Fes continua y crece 
estrictamente en el punto f, 

La pertenencia de las funcionales a una de las clases mencionadas no es, 
desde luego, alternativa. La funcional G(F) puede no pertenecer a ninguna de 
estas clases o pertenecer a ambas clases a la vez. Por ejemplo, si G es una fun- 
cional de tipo 1, el portador de F está concentrado en el segmento [a, b) 
(F(a) = 0, F(b) = 1) y la función g tiene una variación limitada en [a, b), en- 
tonces G será simultáneamente una funcional de tipo II, ya que en este caso 
la funcional 


» 
jebodFG) = gb) ~ (Podge) 


es continua con respecto a Fen la métrica uniforme. Lo dicho quiere decir que 
las estadísticas de tipo LX y S? serán también de tipo II si X € P y P está con- 
centrada en el intervalo finito. 

Podemos completarlosteoremas2.l y2.2con lasiguiente afirmación sobre 
la convergencia casi segura de las características muestrales. 


Teorema 1. Sea, como antes, Xp =|Xuln € F En este caso, si 
S(X) = G(Fs) es la estadística de tipo 1 ó Il, para n> «o 


GER) — E G(F). 
Aquí se supone, desde luego, que el valor de G(F) existe. 


Ahora bien, las muestras de gran volumen permiten estimar no sólo 
la propia distribución P, sino también las funcionales de esta distribución, 
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por lo menos aquellas que pertenecen a una de las clases citadas en el 
teorema. 


Demostración de la afirmación para ambas clases de estadísticas es casi 
evidente. Sea, por ejemplo, G(F) = h (fear). Entonces 


S=5(x) = frcnarzco =1 gw 


in 


es la suma de las variables aleatorias independientes, con la esperanza mate- 


mática 

Me(x) = [g)aF(). 
Por eso en consonancia con la ley fuerte de los grandes números 
S — > Mg(x1). Sea ahora A = (Xw: S(X) > Mg(x1)). Entonces P(A) = 1 


y si Xe € A, entonces S(X) > Mg(x1), AISO) > h(Mg(x1)). Con otras pa- 
labras, en el conjunto A 


G(F5) > GCP). 


La afirmación del teorema para las funcionales de segundo tipo es el 
corolario directo del teorema de Glivenko — Cantelli. < 

Del teorema se deduce que los momentos absolutos y centrales conver- 
gen casi seguramente para n — co a los momentos correspondientes de la 
distribución P: 


at= a =} Dpat- Mx, 


tal 


ai? = 0900 =E DY MO — Ma). 
la 
En particular, 


S=1 Da-i Dt- P- Da. 


imi 


Ahora bien, hemos establecido un hecho importante que tiene para no- 
sotros el valor de principio: con el aumento del volumen de la muestra, 
la distribución empírica y una amplia clase de funcionales de ésta se aproxi- 
man indefinidamente a los valores “teóricos” correspondientes. 

Teoremas más exactos de la distribución de las características muestrales 
se exponen en los $$ 7 y 8. 


se 
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$ 4. Muestras multidimensionales 


1. Distribuciones empíricas. De un modo completamente análogo se cons- 
truyen las distribuciones empíricas y las características muestrales en el 
caso multidimensional cuando la variable aleatoria observada E, y junto 
con ella también los valores muestrales xı, ..., Xn, son vectores de dimensión 
M> lo Xk = (Xk, ds «+ Xx, m). Aquí P(B) = P(£€ B) es la distribución 
en Z= R”, y el espacio muestral aquí será ( 2”, B3, P), donde P es el 
producto directo múltiplo de n de las distribuciones P en (R”, B¿-= Bf). 
La designación X € P conserva por completo su sentido. 

La distribución empírica Ps, basada en la muestra X, se construye, al 
igual que antes, como una distribución discreta con masas de valores 1/n 
en los puntos Xi, ..., Xm, así que 


x 
riB) = 2D - 1 10, 


En 


donde »(B) es el número de puntos que entran en el conjunto B, y La, 
la distribución concentrada en el punto x. 

Es evidente que la afirmación del teorema 1 acerca de la convergencia 
de P5(B) — ss P(B) aquí también será válida. 


La generalización del teorema de Glivenko — Cantelli para el caso mul- 
tidimensional está relacionada con la aparición de cuestiones cualitativa- 
mente nuevas. Una de ellas consiste en generalizar el concepto de intervalos 
para el caso multidimensional. Puede haber varias generalizaciones de tal 
género, por ejemplo, rectángulos, conjuntos convexos, etc. 

Una variante elemental de generalización del teorema de Glivenko — 
Cantelli es la siguiente. 

Sea y = (Ys, n Ym) el punto R", y B,, un ángulo con vértice en el punto 
t= (ly o fm): 


Bi=(yER": y<te k= 


~» m). 


La función FLO = PUB) 


se llama función empírica de distribución. 
Teorema 1. Sea Xn = [Xo]n, Xe € F. Entonces 
sup |Fa(t) — FCO] — zo 
si n> œ. 


2%, Variantes más generales del teorema de Glivenko — Cantelli. Ley 
de logaritmo repetido. Una de las generalizaciones posibles de los teoremas 
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del tipo de Glivenko — Cantelli consiste en lo siguiente. Sea € la clase 
de todos los conjuntos convexos sobre R”. 


Teorema 2. Supongamos que Xn = [X=]n, Xe € P y que la distribución 
P es absolutamente continua respecto a la medida de Lebesgue en R", En- 
tonces 


sup |P=(B) — P(B)| — > 0. (0) 


Otras generalizaciones posibles del teorema 1 pueden ser obtenidas con 
ayuda de las afirmaciones del Suplemento 1. 


Observación 1. La exigencia de que la distribución P sea absolutamente 
continua con respecto a la medida de Lebesgue es muy importante en el 
teorema 2. Esto ló demuestra el ejemplo siguiente, Sea P la distribución 
uniforme en una circunferencia unitaria (o sea, en el límite de un círculo) 
en R?. Construyamos el polígono cerrado Bx con los vértices en los puntos 
Xis +» Xn situados en dicha circunferencia. Es un conjunto convexo. Sin 
embargo, P(Bx) = 0, Ph(Bx) = 1, es incorrecta y, por consiguiente, también 
lo es la relación (1), donde € es la clase de los conjuntos convexos. 

Las afirmaciones de los teoremas del tipo de Glivenko — Cantelli 
pueden ser precisadas considerablemente, por lo menos, para las clases ele- 
mentales de conjuntos. Por ejemplo, para las funciones empíricas de distri- 
buciones F;(t) (véase el teorema 1) se puede señalar la siguiente sucesión 
determinada: bn > 0 cuando 7n — co, para la cual, con la probabilidad 1 
(para casi todos los “puntos” X»), 


lím sup b7 ' sup |F(£) — F()| = 1. 


Resulta que el orden de pequeñez de b, equivale al de mi 
Teorema 3 (ley del logaritmo repetido). Si F(t) es continua, entonces 


P ( iim sup sup |F = FO = 1) =1 


n 
Ininn 


El teorema 3 está estrechamente relacionado con la aproximación nor- 
mal para Fs(1) de la forma (2.8) que, evidentemente, en el caso multidimen- 
sional también tiene lugar. 

La demostración de los teoremas 1 y 2 se da en el Suplemento 1, y 
la demostración del teorema 3 véase en [52]. 

3. Características muestrales. En el caso multidimensional, al igual que 
en el unidimensional, éstas son distintas funciones medibles de la muestra. 
Las más elementales de ellas son los momentos muestrales. Por ejemplo, 
los momentos muestrales de primer orden son iguales a 
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armada j 
a 


Los momentos de segundo orden (ordinarios y centrales) 


aiy = yx) = A 2 Xe md m, 
kmi 


aiya su = L D) (1 ius = ai) 
re 
etc, Al igual que en el caso unidimensional, con ayuda de la ley fuerte de 
los grandes números es fácil cerciorarse de que estas características conver- 
gen, con probabilidad 1, hacia los momentos “teóricos” correspondientes. 
En particular, Sy > M(x1,; — Mx1,1)(1 4 — Mxıy). Es fácil convencerse (es- 
E 


to se analiza más detalladamente en el párrafo siguiente) de que los coefi- 
cientes de correlación muestrales 


NE SP — Maia — Mx Day - Mx) 
ru e: ai eX) IDa Das 


también poseen esta misma propiedad. 
Para obtener teoremas más exactos de la distribución de las característi- 
cas muestrales nos serán útiles los llamados teoremas de continuidad. 


$ 5. Teoremas de continuidad 
En lo sucesivo necesitaremos ciertos conceptos auxiliares que utilizaremos 
a menudo y que podrían ser llamados teoremas de continuidad. Para facili- 
tar su estudio, a ellos les dedicamos un párrafo especial. Anteriormente 
ya hemos utilizado un teorema de este tipo — el teorema 3.1. El primer 
teorema de continuidad será muy parecido a éste. 

Teorema 1 (primer teorema de continuidad). Sea X =|Xoln € P. En 
este caso, si Sn = S(X) es una sucesión de estadísticas escalares o vecto- 
riales, tales que Sa > So, y Hs) es una función continua casi por doquier 


con respecto a la distribución de la variable aleatoria So (o sea, H(s) es 
continua en cada punto del conjunto B P(So€B)= 1), entonces 
HSA) — + HS). 

Si Sn converge hacia So según la probabilidad (Sa = So), entonces para 
las demás condiciones semejantes, H(S) É H(So). 
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La demostración del teorema es casi evidente. Como las probabilidades 
de los sucesos A = {Xei Sa( X=) > SolXo)) y C = [Xu: (Xe) EB} son 
iguales a 1, entonces, en virtud de la igualdad P(4N.C) = P(4) + P(C) — 
=P(AUC), la probabilidad del suceso ANC (en el cual 
H(Si(X=)) > H(SA(X.))) también es igual a 1. 

Para simplificar la demostración de la convergencia en probabilidad, 
supongamos adicionalmente que So = const (sólo necesitaremos este caso). 
Para un valor dado de e > 0 hay un valor de ô> 0 tal, que el suceso 
An = (Xu: [Sn — Sol < 5) contribuye a que |H(S,) ~ H(So)| < e y además, 
P(An) > 1 — e para todos los valores de n bastante grandes, Por lo tanto, 
para tales n tenemos 1 — € < P(An) < P(H(S,) — H(So)| < 8). < 

Antes de enunciar los teoremas siguientes, introduzcamas ciertas desig- 
naciones que serán cómodas posteriormente. 

Supongamos que se ha dado una sucesión de vectores aleatorios 
Mn = (92, ~, 15?) (no obligatoriamente en el mismo espacio probabilísti- 
co). Si las distribuciones y» convergen débilmente (cuando n — co) hacia 
la distribución de cierta variable aleatoria y, entonces designaremos este 
hecho con el símbolo 

mor (O) 
Aquí utilizamos, para las variables aleatorias, el signo > de convergencia 
débil de las distribuciones. Al igual que antes, utilizaremos también este 
signo para las propias distribuciones, así que la relación (1) es equivalente 
a que 


0-0 

donde Qn y Q son las distribuciones de y, y y respectivamente. Tal convenio 
es cómodo y no conduce a equivocaciones. 

Está claro que de ņa o de qa zrs deduce 7» = y (compárese 
con [11], p. 133). 

Ahora bien, si se trata de la relación (correspondiente a una convergen- 
cia débil) entre objetos de igual naturaleza (entre variables aleatorias o entre 
distribuciones), usaremos el símbolo =. También sería conveniente tener 


el símbolo para expresar el hecho de que “las distribuciones de y convergen 
débilmente hacia Q cuando n > eo”. Escribiremos esta relación de la forma 


med (0) 
así que el símbolo € expresa el mismo hecho que =, pero une objetos 
de distinta naturaleza, al igual que el símbolo € respecto a y € Q (a la 
izquierda en (2) se encuentran las variables aleatorias, y a la derecha, la 
distribución). 

Sean qn y y vectores aleatorios de R*. 
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Teorema 2 (segundo teorema de continuidad). Si ya = y y H(1), t ER" es 
una función continua de R* en R*, entonces H(qn) > H(n). 

Señalemos que, en realidad, este teorema también es cierto en una forma 
más general °, Sinn => y y H() es continua en los puntos del conjunto A €8*, 
P(n € A) = 1, entonces H(9n) = HG). 


Demostración del teorema 2. Sean Q, y Q las distribuciones nn y y, respecti- 


vamente, La convergencia débil de Qa > Q significa, por definición, que para 
toda función continua y limitada f: R* > R se cumple 


[/0)0:(dy) = [SOU dy) 
o bien, que es lo mismo, 


Min) > MJ). 0) 


También debemos obtener una relación análoga para las distribuciones 
Hmm) y Ha). O sea, debemos establecer que para toda función continua limi- 
tadag: R* + ResválidaMg(H(1n)) > ME(H(n)). Peroesto sededucecon evi- 
dencia de (3), ya que la superposición E = g + H: R* > R es continua y 
limitada. < 

Teorema 3 (tercer teorema de continuidad). Sean, > y € R, H(t), t € Runa 
JSunción derivable en el punto a. Entonces, si bn — O es una sucesión numérica, 


(Hía + bann) — H(a))/bn > nH’ (a). (4) 
Demostración. Examinemos la función 
e +x)- H(a))/x, x0, 
h(x) = o 


la cual será continua en el punto x = 0, Como baha > 0, en virtud del primer 
teorema de continuidad, A(6,7n) > A(0) = H” (a). Utilizando el segundo teo- 
rema de continuidad, obtenemos 


(H(a + bain) — H(a))/bn = Mbran dan > H' (ajy. a 
Ahora citaremos dos generalizaciones sucesivas del teorema 3 para el caso 
multidimensional, las cuales nos serán útiles. 
Teorema 3A. Supongamos que qa = (1%, 


que H(1) es función escalar del vectort = (t 


da HO) = E 


a (0, na nO) y 
tx) con la que existe la deriva- 


ÑH) en el punto a. Entonces, cuando ba — 0, 


> Véase [5]. 
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(Eha + bom) HOYO, HON Y HO Os 
Ju 


Aquí el índice T corresponde a la transposición. 
Sim(H'(a))" = Ocon probabilidad | (por ejemplo, H’ (a) = 0), y la matriz 


H" (t) de las derivadas EHO 
A 


existe en el punto a, entonces 


(Ka + da) HOBA > E qH" (a7 =1 z O 


Sea ahora H(t) una función vectorial. iie evidentemente, la distri- 
bución límite para cada componente Hjserá descrita por el teorema 3A, y con 
respecto a la distribución conjunta será valida. 


Teorema 3B, Supongamos que yn = y €R* y que H(t) € R* es una fun- 
ción vectorial con la que las derivadas H}, j = 1, ..., k satisfacen las condi- 
ciones del teorema 3A. Entonces 


(H(a + bann) — H(a))/ba = n(H (a). 
Si y(H'(a))” = 0 con probabilidad 1, y las matrices Hf, j = 1, ..., k existen 
en el punto a, entonces 


(Hla + dana) — HYD E ARO, ~, NRO. 


Las demostraciones de estas afirmaciones, de hecho no se distinguen 
en nada de la demostración del teorema 3, y por eso las presentamos al 
lector en calidad de ejercicios. Además, proponemos convencerse de que 
el símbolo = en (4)—(6) se puede sustituir por — = o por ~, si se cumple 


MR respectivamente. 

El contenido de los teoremas 1—3 puede resumirse del modo siguiente, 
Supongamos que ~ — significa uno de los símbolos — >, ~+, =>. Enton- 
ces, si H es continua, de ņa ~ > y resulta H(9n) ~ —> H(n). 

Si H es derivable en el punto a, yn ~ — y, entonces para ba — 0 

(H(a + bata) — Hla)/bn ~ > H' (a)n. 0) 

Observación 1. No es difícil notar que si a depende de n de modo que 


a Es an = %o + o(1) y las derivadas en los teoremas 3, 3A y 3B son conti- 
nuas, la relación (7) se conservará en la forma 


(H(an + bann) — H(an))/bn ~ > H’ (a). (8) 
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Para la demostración es suficiente ver que el primer miembro (8) es 
representable en forma de H'(œn}yn, donde œn = ban + (1 — Oan + 
+ ban) ~ — do, [0] < 1, y utilizar el segundo teorema de continuidad. 

Esa misma observación es válida para los análogos multidimensionales 
de la referida afirmación en los teoremas 3A, 3B. 

Los teoremas enunciados conciernen a la convergencia casi segura y a 
la convergencia de las distribuciones. El cuarto teorema de continuidad se 
refiere a la convergencia de las integrales. 


Teorema 4 (teorema de continuidad para los momentos). Supongamos 
que (nn) es una sucesión de variables aleatorias numéricas y que qn = n 
cuando n > co. En este caso, si se cumple al menos una de las condiciones 
siguientes: 


1) lím sup í Pilm] > x)dx > 0 para N= <o, 
o) 2 
2) Pilm] > x) < 90, l plddx < œ, 
3) MImn|'** < c < œ para cierto a > 0, 
entonces lim Min = Mn. 


Nótese que la condición 1 significa la convergencia uniforme en n hacia 
el cero f Pnl > x)dx cuando N= œ. 


Demostración. De la desigualdad generalizada de Chébishev, 


Mimo]! +9 


Pm] >) < — TFE 


se deduce que la condición 3 provoca la condición 2 y ésta, a su vez, la 
condición 1. 


Supongamos que se ha cumplido la condición 1. Para simplificar los 
razonamientos, admitamos primeramente que qn > 0. Entonces, integrando 
por partes, obtenemos 


Mon = — | x dP9» > x) = | Poa > Dax. 
o è 


De esta representación, así como de la convergencia de P(ņ, > x) => 

>PG>x para casi todos los x, y de la convergencia, uniforme en 7, 

de la integral f Pin > x)dx, se deduce la legitimidad del paso límite bajo 
o 


el signo de integral, en virtud del cual 
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lim Mya = lim ¿50 > x)dx = ] PG > x)dx = My. 


Erel general comiencutticaria opresión me Eso da 
de n? = máx (7n, 0), n7 = máx (—7, 0). < 

Señalemos que la condición 1 también puede considerarse como condi- 
ción de la integrabilidad uniforme de yn, de la cual se deduce inmediata- 
mente la convergencia requerida de My, — Mn (véase, por ejemplo, [11], 
[60)). 


$ 6%. Función empírica de distribución como proceso aleatorio. 
Convergencia hacia el puente browniano 


En este párrafo supondremos que se conoce el concepto de proceso aleato- 
rio (digamos, en el volumen de [11]) y, en particular, las definiciones y pro- 
piedades elementales de los procesos wieneriano y poissoniano, 

1. Distribución del proceso 2F5(1). Nos limitaremos a examinar el caso 
unidimensional 2'= R. Supongamos, como antes, que Fi(1) = P}((— <, 
£)) es la función empírica de distribución correspondiente a la muestra 
X=X,EP. 

La función F(1) es una función de dos variables: £ y X, o bien que 
es lo mismo, una función aleatoria de 1 o un proceso aleatorio. 

Hallemos las distribuciones de dimensión finita de este proceso. Supon- 
gamos fı < fz < ... < ím son Mm puntos arbitrarios del eje numérico. Ponga- 
mos fo = =, fmy1 = © y designemos por 

Asg = gl4+1) — gt) 
los incrementos de la función g(r) en los semiintervalos Ay = [4 +1), 
j=0, 1, .„ m. Examinemos el incremento Ayxn del proceso 
Kalt) = nF5(0). 
Evidentemente, esto es el número de elementos de la muestra que se en- 
cuentramen Ay. La probabilidad de que un elemento de la muestra (diga- 
mos, xı) se halle en Ay es igual a p; = P(Ay). Como el hecho de que los 
elementos tomen un valor perteneciente a Ay, j = 0, 1, ..., m, constituye 


m + 1 sucesos incompatibles, tenemos aquí, sin duda, una distribución po- 
linomial (véase [11], p. 111) para el vector (omn, 


des Po, „s Pm, $; p=1. Como es sabido, 
id Jue 


P(Aonn = kos ..> Amin = Km) = 


n! 4 
Ko! 
donde Y ķ =n. 

Seo 
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Sea ahora y(u), u € [0, 1), el proceso poissoniano continuo a la izquierda 
(véase [H], p. 308) con parámetro », „(0) = 0. Los incrementos de este pro- 
ceso son independientes, 


Polu) = 4) = e 


Si la función de distribución F(/) = P((— æ, £)) es continua, podemos 
realizar la sustitución continua del tiempo, poniendo u = F(t), 
=œ < 1 < «o, y determinar de este modo el proceso x(1) = n(F(1) sobre 
todo el eje. Examinemos los incrementos de este proceso 

Ayr = (Y +1) — (1) = AF1) — ME) 
sobre los intervalos Ay. Entonces 
3 a», Ap)" T a 
= = = T Ca NS — 
Por = ko, n, Amr = km) = ]] e Eser er 
120 Jao 
y la probabilidad condicional de este mismo proceso, a condición de que 
r(o)= J; Ar = n, será igual a 
Seo 


Nam=5)- 


P( Aor = ko, y Amr = km 


j=0 
= Plor = ko, n Ama = km) 
P(x(00) = n) 
r 
5 
qe 


Hemos obtenido para cualquier A > 0 la misma expresión que en el se- 
gundo miembro de (1). Así pues, hemos demostrado la afirmación si- 
guiente, 


Teorema 1. Si F(1) es continua, la distribución del proceso nFx(t) coinci- 
de con la distribución condicional del proceso x(t) = n(F(t)) a condición 
de que x(s0) = n(n(1) = n). 

El teorema muestra que las desviaciones n(Fx(1) — F(£)) están distri- 
buidas al igual que n(F(1) — nF(£) a condición de que n(1) = n y el proble- 
ma con precisión hasta la sustitución del tiempo u = F(t) se reduce al 
estudio de las desviaciones y(u) — nu para el proceso poissoniano condi- 
cional (n(1) = n) sobre el segmento [0, 1] o bien, que es lo mismo, al estudio 
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de las desviaciones n(Fa(1) — t), donde Fi(£) corresponde a la distribución 
uniforme sobre ¡9, 1]. 

Puede ser útil también otra representación para el proceso nFa(t). Sean 
$1 fa .. los puntos de saltos del proceso poissoniano m(f), así que 
ník + 0) = k. Como es sabido ([11)), las diferencias x = fk ~ fk-1 
(fo = 0), k = 1, 2, ..., son independientes y están distribuidas exponen- 
cialmente 


Plg > x) = e7™, 
fx tiene T-distribución con densidad (véase también el $ 2.2) 


: 
mt pen 


Para simplificar las enunciaciones, supongamos que F(1) = t, £ € [0, 1), 
to=0, fm+1= 1, así que (t) = x(t). 

Teorema 2. La distribución del proceso nF(t) coincide, para cualquier 
v > 0, con la distribución condicional del proceso x(tv), 0 < t < 1, a con- 
dición de que fn+ı = v. 

Con otras palabras, la afirmación del teorema 1 seguirá válida si la con- 
dición x(1) =n se sustituye por una condición mucho más estrecha 
r(1) = n, r(l + 0) = n + 1 (suponemos que las trayectorias de (1) son 
continuas a la izquierda). 

Como la probabilidad de esta nueva condición es igual a 0, puede ser 
que convenga añadir (véanse los $$ 4 y 8 en [11] sobre las esperanzas mate- 
máticas, así como el $ 2.9) que por distribución condicional entendemos 
las probabilidades 


P(A; fn+1 € du) 
PEn+1€dv) ” 


Amrítv) = Km), Ayr(tv) = x(t)+10) — 


P(A/tn+1 = v) = 


donde A = (Aor(tv) = ko, 
= mt, v). 

Demostración. Representemos el suceso {fn+1€dv) en la forma del 
producto de dos sucesos 


B= (r) =n} y C= (x(v + do) — r(v) = 1). 


Los sucesos B y AB no dependen de C, ya que los sucesos B y AB, por 
un lado, y el suceso C, por otro, se refieren a los incrementos del proceso 
x sobre los intervalos disjuntos del tiempo. Por eso 


PAsi = v) = O = PA O 
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Lo mismo que en (2) nos cercioramos de que esta expresión no depende 
de v (ni tampoco de A) y coincide con (1). ~< 

Corolario 1. La distribución del proceso nFs(t) coincide con la distribu- 
ción a(tgn+1) 0<1<l. 

Esto se deduce del hecho de que para B = [Aom(tfn+1) = Ko, .. 
aus Amrit3n+1) = km) tenemos, en virtud de (3), 


Aj 


PB) | Pala 0 Ped) 1] E. 


4 


Del corolario 1 se deduce: 

Corolario 2. La distribución conjunta de los elementos de la serie va- 
riacional xq), ..., Xn de la muestra X de la distribución uniforme coincide 
con la distribución conjunta 


ți En 
Emsa 7 Ema 
o bien, que es lo mismo, la distribución conjunta de las diferencias xq), 
Xa) — Xd)» + Xen) — Xin- 1)» 1 — Xem) coincide con la distribución conjunta 
E nsi 


Fasi Fnsi ` 


Para concluir este apartado determinaremos los momentos de segundo 
orden para los incrementos del proceso n(F5(f) — F(t)). Para nosotros será 
más cómodo examinar el proceso 


Ww") = VERO — FU). 
Es evidente que MAyw" = 0, M(A/w") = AyF(1 — AF). Para calcular los 
momentos mixtos notemos que (i > j) 
Mawai Dy MALA) - PAD) x 
kra 
a 


x (a) — PA= D, Mua) — PADA). 
KT 
Puesto que 


MI,(A)L (A) = Haddad kl 


Entonces M(A;w"-A/w") = —P(A)P(A) = — A/F-4yF. 
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Ahora bien, los incrementos del proceso w” están correlacionados nega- 
tivamente. 

2. Comportamiento límite del proceso w"(1). Supongamos que F(t) es 
continua. Del punto 1 entonces se deduce que podemos limitarnos a exami- 
nar la distribución F(t) = 1 uniforme sobre [0, 1], O < £ < L 

Designemos por w(?) el proceso wieneriano estándar, o sea, el proceso 
con incrementos independientes para el cual w(2) está distribuido normal- 
mente con parámetros (0, 1). El proceso 


woe() = w(t) — 1w() 


se llama puente browniano (puesto que en él se hallan asegurados ambos 
extremos: w*(0) = w*(1) = 0). La distribución de este proceso coincide con 
la distribución condicional del proceso w(£) a condición de que w(1) = 0 
(mejor dicho, es necesario adoptar la condición |w(1)| < e y pasar al límite 
para e > 0). 

Resulta que las distribuciones de dimensión finita de los procesos 


1*(0) = VAER) — FO), telo, 1, 


convergen, cuando n — œ, hacia las distribuciones correspondientes del 
puente browniano w°(). 

Este hecho permite aproximar los procesos w”(£), llamados, a veces, 
procesos empíricos, con ayuda del proceso w"(£). Precisamente por eso po- 
demos imaginarnos que, con grandes valores de n, tiene lugar la igualdad 
aproximada 


VERO — FW) = we) (4) 


que describe la distribución de las desviaciones de Fn(1) respecto a F(0) 
(recordemos que aquí hemos considerado que F(1) = 1, 1.€[0, 1]. 

No obstante, necesitaremos la afirmación del tipo (4) en una forma más 
fuerte. Examinemos, por ejemplo, la estadística U = Vn sup (EMO — 


- F(1)). Dicha afirmación hace natural la suposición de que con grandes 

valores de n la variable aleatoria U está distribuida aproximadamente al 

igual que sup w*(0). Pero de nuestra afirmación esto no se deduce de 
e 


ningún modo, puesto que U no puede ser representada como función de 
los valores de w"(1) = Vn(F(1) — F(t)) en cualquier número finito de pun- 
tos. Por eso es mucho más fuerte la siguiente afirmación. 

Designemos por D(a, b) el espacio de las funciones sobre el segmento 
a, b], que son continuas a la izquierda (en el punto a a la derecha) y tienen 
sólo un número finito de saltos, y designemos por Ca, b) el espacio de 
todas las funciones continuas sobre [a, b]. Es evidente que la trayectoria 
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w"(t) pertenece a D(0, 1). Además, es sabido (véase [11], capítulo 13) que 
las trayectorias w°(z) pertenecen a C(0, 1) con probabilidad 1. Para simplifi- 
car la exposición podemos suponer que todas las trayectorias w(f) y, por 
consiguiente, w°(/) se encuentran en C(O, 1) (véase [11)). Como C(0, 1) C 
C D(0, 1), entonces (D(0, 1), op) — donde op es el o-álgebra de los subcon- 
juntos de D(0, 1), engendrada por conjuntos cilíndricos ° — puede ser con- 
siderado como el espacio muestral *” de los procesos w” y w°. 

Teorema 3 (teorema funcional del límite para los procesos empíricos). 
Sea f la funcional que está definida sobre el espacio D(0, 1) y que posee 
las propiedades siguientes: 

1) (wa) y /(w*) son magnitudes aleatorias (o sea, f(y) realiza la aplica- 
ción medible (D(0, 1), ap) en (R, B)); 

2) fW) es una funcional que es continua en los ”puntos“ del espacio 
C(0, 1) con respecto a la métrica uniforme, o sea, fn) + f(y) para n — oo 
si y€ CO, 1) y 20h, Y) = Sup, Dto) — (O)| > 0. 


Si estas condiciones han sido cumplidas, entonces 
Aw") = A). 


Si la funcional f es continua en la métrica uniforme en todo punto y € 
ED(0, 1), la condición 1) se cumple automáticamente. 

Es evidente que la funcional U, examinada anteriormente, satisface las 
condiciones del teorema, así que para n — oo, 


v= o. 
Como en esta relación, la distribución del segundo miembro se puede hallar 
en forma explícita (véase, por ejemplo, [5], (58]): 


dd di 


6-3 


obtenemos, de este modo, la expresión aproximada para la distribución de 
U. 


El uso del teorema 3 para el cálculo de la distribución límite de otras 
estadísticas se examina en los párrafos siguientes. 
La demostración del teorema 3 se da en el Suplemento II. 


? O sea, por los conjuntos que tienen la forma (y(t1) € Bi, ..., Y(tm) € Bm), donde 
. Bn son los conjuntos de Borel. 

(Do, o) es el espacio muestral del proceso £(£) si en él está dada la distribución del 
conjunto £ de tal modo que las trayectorias E(() se encuentran en Do. 
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$ 7. Distribución límite para las estadísticas de primer tipo 


Recordemos que llamamos estadísticas de primer tipo las estadísticas 
Si(X) = G(Fs), donde la funcional G tiene la forma G(F)= 
= h( | 8(x) dF(x)). Con otras palabras, 


SOO =h G X 200). 


ta 
Ya hemos visto (teorema 3.1) que si X € Fo y h es continua en el punto 
a = | g(x) dFo(x), entonces Sn ~ — h(a). 


Teorema 1. Si X € Fo, h es derivable en el punto a, f g(x) dFo(x) < 0, 
entonces 


VACS X) — h(a)) = h'(aJE, 


donde E € toa? = | (8(x) — a} dFo(X). o,o: aquí significa la distribu- 
ción normal con parámetros (0, a?). 


Demostración. Representemos la estadística Sh(X) en la forma 


ro [5 Duw-0]). 


donde, según el teorema central del límite (véase (11), 
1 
mE 2600 a) € boons 


0 = M(g(a) - a? = few - Paro). 
Nos queda hacer uso del tercer teorema de continuidad para bn = 
=1/Vn.< 
A veces es más cómodo examinar las funcionales de primer tipo en la 


forma G(£) = A (| glxJa(F — Fo). Evidentemente, todo lo dicho también 


es válido para éstas, con la única diferencia de que a ha de considerarse 
igual a 0. 


Citemos el análogo del teorema 1 para el caso en que la función g = 
= (81, ~ 8s) es el vector (o sea G(F) = A( | g100dF(x), ~.s Í 2s0dF(x)). 

Teorema 1A. Supongamos que Sa(X ) = G(E%), h(t) es derivable en el 
48090 
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punto a = | gix)dFo{x), y que la matriz de los segundos momentos 
o = loul = M(g(u) - a)'(gQu) — a) es finita. Entonces 


ayr- Y 2D 
(SX ) — haa > EM (a) = 2 A ta (O 


donde £ = (i, ..., £) € Boo 
Si &h'{a)}" = O con probabilidad 1, y la matriz de segundas derivadas 


h") = | h(t) | existe en el punto a, entonces 


17 2x0) 
Y aL o 


Para la demostración del teorema 1A conviene usar el teorema de conti- 
nuidad 5.3A y el teorema central del límite multidimensional, en virtud 


|, 
En 


(500) — hladin =} ERE = 


del cual + Y (ex) — a) > £ (véase el suplemento V). 
la 

Completamente análogo es el teorema de la distribución límite S,(X) 
cuando la función h, y junto con eila también la estadística Sh(X), son 
vectores. El lector reproducirá sin dificultad su enunciación y demostración 
con ayuda del teorema 5.3B. 

Ejemplo 1. Supongamos que X € Po y Po es tal que Mx; = a > 0, 
Dx; = d? < co, ¿Qué representa en estas condiciones la distribución límite 


de la estadística S = 1/3 (Q =1 bi x)? Aquí, las condiciones del teore- 
a 

ma 1 están evidentemente cumplidas para A(1) = 1/1, g(x) = x, con la parti- 

cularidad de que a = a, o? = d?, h(a) = 1/a, h'(a) = —1/c0é, En virtud 

del teorema 1, 


(S — 1/a)Vn = —E/dd, EE Boa, 
así que 


(S — 1/0)Vn E Po,arros: 
Ejemplo 2. Hallemos la distribución límite de la estadística 


aa 


si Mxı = a, Dx; = d? y Mx < co. (Ya sabemos que en virtud del primer 
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teorema de continuidad, $? — => d°). No es difícil hallar directamente la 


distribución límite necesaria, utilizando las representaciones 


S =19, a-a) - G- ar, 


(S - do -L Dl o- VR a. 


ia 
No obstante, haremos uso del teorema 1A. Según los datos de este teorema 
debemos suponer que 

G(F) = | (x — FF) — (| x dE) — a}, 
así que gu(x) = (x— 0), g(x) =x, M1) = f — (f — a). Puesto que en 
el punto a = (d°, a) 


aha), ha) _ 


E . S 


entonces 
(dni EE toai 


= Mk - dl, 


Ejemplo 3. Estadística x?. Concluyendo este párrafo examinemos un 
ejemplo de estadística que puede pertenecer tanto a la del tipo 1 como a 
la del tipo II. 

Examinemos las estadísticas construidas con ayuda de la funcional que 
tiene la forma 


G(F) = h(| g dF). (2) 


donde g es la función de variación limitada sobre el segmento [a, b) tal 
que F(a) = 0, F(b) =1 (a y b pueden ser infinitos). Como | g dF = 
= g(b) — | F dg, la funcional G(F) será continua en la métrica uniforme 
si sólo es continua la función h. Es fácil comprender que la clase destacada 
de características no es sino la intersección de las clases de estadísticas de 
los tipos 1 y II. 

Lo mismo es válido en el caso en que g es una función de forma vecto- 
rial con componentes g; que tienen una variación limitada, 

Examinemos ahora la partición del eje real (espacio 2) en los intervalos 
disjuntos As, .... Ar, y designemos »; = nP3(A;), pi = Po(A;) (Po es la distri- 
bución correspondiente a Fo, así que X € Po). Se llama estadística “ji- 
mi 
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cuadrado” x? = XX) la estadística 


< 2 
BA a {vi — apy 
xXx) > a E 
tus 
Evidentemente que esto es una estadística de tipo 11, ya que ella corres- 
ponde, con una exactitud de hasta el factor n, a la funcional 


EA) — Pola? 


G(F) = GP) = Poa) 


Para representar x?(X) como estadística de tipo 1, examinemos la fun- 
cional que tiene la forma (2) 


G(F) = h(fed(F — Fo) 
con la función A(u) = Y) uf y la función vectorial g con coordenadas 
mi 
1/vp; para x € Ay, 
para xG4y. 


A hO) y BHO) _ 
Como la función h es derivable, Pz ¿2 = O, zz, = 264 (dy es el 


símbolo de Kronecker), entonces, poniendo S,(X) = G(Fs), obtenemos 


nSX) = n È 18 -p +] = 2%). 


yan 


s= [y 


Para X € Po, en virtud de la segunda parte del teorema 1A, 


rA 
A) > È ë, 8) 
donde £ = (i, ..., Es) es el vector normalmente distribuido (límite para 


n- np v, = np, 
ná 
segundos momentos 


oy = MEE, = Mígdx) — VPE) — VP) 
(de la definición de gy se deduce que Mgxi) = Vp). Puesto que 
2008/00) = 0 para i j y P(gj0a) = 1/p;) = pj, Pei) = 0) = 1 — pj, 


entonces 
= VPP. 


con la media nula y la matriz 0? = Joy] de 


oy 


Si 
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Aclaremos ahora qué representa la distribución del segundo miembro 
en (3) (o sea, la distribución limite x?(X)). 

Examinemos la transformación ortogonal en R” con la matriz C y exa- 
minemos el vector 


n= ¿0 


El vector 7, al igual que £, será distribuido normalmente. En efecto, la nor- 
malidad de la magnitud Ẹ quiere decir que su función característica es igual 
a (véase [11]) 


tor 
Me = a , 


Jay) es la matriz de segundos momentos. Pero f.c. para y 
- Jicrocer 
P 


donde o? 
Men a Me™ o 
tiene la misma forma y, por consiguiente, y es un vector normal, pero con 


la matriz de segundos momentos d? = C7o?C = lay), así que 


dy = Man, = 2 CuoCiy = 2 culón — VPips) ciy = 
= aa - G ana) E a). (4) 
7 T T 


Escojamos ahora la matriz C de modo que su primera columna tenga 
las coordenadas cn = Vp; (esto corresponde a la fijación del primer vector 
del sistema transformado de las coordenadas y es posible, ya que 


È ch = Ep = 1). En este caso es evidente que el segundo sumando 
a 


en (4), en virtud de la ortogonalidad de C, es igual a 1 sólo para į = j = 1, 
y es igual a O en el caso contrario. Esto significa que di, = My? = 0, 
dy = Mmm, = ôy para i > 2, y por consiguiente, y; = 0 con una probabili- 
dad igual a 1, y las magnitudes a, ..., y, son independientes y están distri- 
buidas normalmente con los parámetros (0, 1). A base de la ortogonalidad 
de C obtenemos 


E (5) 
x= E i 
ft 


En esta igualdad, la distribución del segundo miembro se llama distribu- 
ción x? (“ji-cuadrado”) con r — 1 grados de libertad (véase [11] y también 
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el $ 2.2). En la exposición ulterior encontraremos muchas veces esta distri- 
bución. 

Una demostración más de (5) será obtenida en el párrafo siguiente. Ade- 
más, (5) será demostrado en el $ 3.16 con ayuda de consideraciones más 
generales. 

Algunos otros ejemplos de uso de los teoremas 1 y 1A se dan en los 
capítulos posteriores. 


$ 8. Distribución límite para las estadísticas de segundo tipo 


Aquí nos limitaremos a examinar el caso 2"= R. La funcional G(F;) sujeta 
a estudio será una magnitud aleatoria si ella realiza la aplicación medible 
(D(-— oo, 20), øn) en (R, 9). Sin embargo, en lo sucesivo nos será más cómo- 
do estudiar las funcionales que no están definidas sobre D(— o, 00) sino 
sobre D(O, 1) (compárense con el $ 6). 

Para hacer esto apliquemos D(— œ, œ) en D(O, 1). Supongamos que 
la función de distribución Fo, correspondiente a la muestra, es continua 
y monótona, así que está definida la función inversa Fy '(1) (igual a la 
cuantila de orden £ de Fo). Nos será suficiente examinar los valores de G(F) 
para las funciones Æ, cuyo portador está presente en el portador de Fp. 
A cada F pongámosle en correspondencia la función 


Pt) = FE 0) = FFS (À). 


Es evidente que NF < [0, 1], donde NF es el portador de Ë, así que Fe 
€ D(0, 1) es precisamente la función de distribución. La transformación 
inversa de D(O, 1) en D(— œ, æ) se lleva a cabo por la igualdad 


F(u) = FlFo(u)) = PFolu). 


Pongamos ahora en correspondencia con la funcional G la funcional G 
definida sobre las funciones de distribución Æ € D(0, 1) (Ny S [0, 1) por 
la igualdad 


G(H) = G(HFo). 0) 
La inversión de esta fórmula tiene la forma 
G(E) = G(FFS '). 


Estas igualdades reducen el estudio de las funcionales G(F) al estudio de 
las funcionales G(H) definidas en las funciones de distribución de D(0, 1). 
En virtud de estas igualdades, 


G(F5) = G(F5F5 *) = G(D5). a) 
Di = FFs 6B) 
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no es otra cosa sino la función empírica de distribución de la muestra desde 
la distribución uniforme sobre [0, 1]. En efecto, según el teorema 6.1, el 
proceso nDi(t) = nFA(Fy *(1)) tiene la misma distribución que el proceso 
poissoniano T(Fo(Fs '(£))) = (1), £€10, 1] (con un parámetro A > 0) a 
condición de que x(1) = n. En virtud de ese mismo teorema 6.1, esto de- 
muestra la afirmación requerida. 

Lo dicho significa que el estudio de G(F}) se reduce a la investigación 
de la funcional G de la distribución empírica que corresponde a la distribu- 
ción uniforme sobre [0, 1). 

Ejemplo 1. Sea G(F) = $, la cuantila de orden p de la función de distri- 
bución F. Entonces Ó(H) = G(HFo) será la cuantila de orden p de la fun- 
ción de distribución HFa o bien, que es lo mismo (supongamos, para 
simplificar, que H es continua), la solución de la ecuación H(Fo(f)) = p, 
igual a Fy (H7 '(p)). 

Esto significa que la cuantila muestral t; = G(F}) = Ĝ(D4) (véanse (2) 
y (3)) de la muestra X € Fo no es otra cosa sino el valor de la función 
Fy ' de la cuantila muestral n> = (D5)” '(p) de orden p de la muestra Y 
de la distribución uniforme. 

Por lo tanto, si logramos hallar la distribución límite de nb, entonces 
la distribución límite de $5 podrá ser obtenida con ayuda de los teoremas 
de continuidad. 

Ejemplo 2. Examinemos la funcional G(F) = sup |F() — Fo(0)|. En 
este caso e 


G(H) = G(HFo) = _sup _[H(E0) — Fo(0)| = Sop IHC) — ul, 
así que 


G(Fa) = G(D5) = sup (Dilu) =u], 


y en correspondencia con el contenido del § 6, la distribución de la estadís- 
tica G(Fx) no dependerá de Fo si Fo es continua. En este sentido la estadísti- 
ca G(Fs) puede llamarse invariante respecto a la distribución uniforme de 
la muestra. 


Ejemplo 3. La funcional 
GF) = $ 150) — EXOlaFA0) 


también engendra la estadística G(Fx), invariante respecto a Fo, ya que 
1 Ñ 
Gm) = ji |H(u) — ulfdu, — G(Ex) = | Ditu) — ul*du. 
ò 


f} 
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Ejemplo 4. Examinemos la funcional 


La Gi 2 
an = D, OER, 
m 


donde AjF son los incrementos de la función F sobre los intervalos A, = 
= [1, ty+ 1) que forman la partición de una recta real. Evidentemente que 
nG(E%) no es otra cosa sino la estadística x? examinada en el ejemplo 7.3 
en calidad de estadística de tipo I. 

Tenemos 


u hi 2 
Gun = GHP = Dy CPRZABE,, 


j= 
AHF = H(Fo(tj+1)) — HEAD) = ôjH, 


8,H son los incrementos de H sobre los intervalos dy = [7,, t+ 1), 1, = Fo(4). 
Así, pues, designando con esa misma letra ô; la longitud del intervalo óy, 
obtenemos 


donde 


CES) = GEF) = G(D5) = É ON 


Aquí el segundo miembro es la estadística n”!x? para la muestra Y de 
la distribución uniforme con partición (6,). Esto significa, en particular, 
que en el ejemplo 3 del párrafo precedente pudiéramos limitarnos a exami- 
nar la distribución uniforme Fo, aunque la estadística x? por sí misma no 
es invariante con respecto a Fo. 

Ahora bien, podemos, sin limitar la generalidad, suponer que la funcio- 
nal G(F) se da sobre D(0, 1) y Fo(1) = 1, t € [0, 1). El paso a las funcionales 
“iniciales” se realiza mediante las fórmulas (1) y (2) y será ilustrado con 
otros ejemplos, 

Con el fin de encontrar la distribución límite para las funcionales de 
segundo tipo G(Fs) es necesario, al igual que en el apartado precedente, 
imponer a las funcionales ciertas condiciones de suavidad. 

Pongamos para abreviar, lll = sup |x()]. 

Definición 1, La funcional G(F) se llama continuamente derivable de 
orden k en el punto Fo si existe la funcional g(Fo, v) que para cualquier 
función v € C(O, 1) y cualquier sucesión va € D(O, 1) es tal que llua — vll > 0 
cuando A — 0 satisface las relaciones 


LE += GO añ, v), a 


2(Fo, va) > g(Fo, v). 
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La última relación significa, evidentemente, la continuidad en la métrica 
uniforme en los puntos de C(O, 1) de la funcional g(Fo, v) que se puede 
llamar derivada de orden k de G en la dirección de v. 

Observación 1. Recordemos que aquí, en cualquier parte, por Fo se pue- 
de entender la distribución uniforme sobre [0, 1]. 

Mostremos que en el ejemplo 1, la funcional G(F) = F” '(p) de la dis- 
tribución F sobre [0, 1] es continuamente derivable en el “punto” Fo(1) = 1, 
telo, 1). 

En efecto, por definición, 


G(Fo + hva) = máx ft: Folt) + hu) S p). 


Como esta funcional es continua en la métrica uniforme en el punto Fo, 
podemos poner G(Fo + hur) = p + ô, donde ô= ô(h)—>0 para h> 0. 
Luego, de la relación ilva — vll >0, donde veC(0, 1), se deduce 
lun(p + 8) — va(p)| = r(h) > 0 cuando h— 0. Como Fo(p + ô) = p + ô, 
para 1 = G(Fo + pur) = p + 5 obtenemos 


Folt) + hurl!) = p + ô+ hop + 8) = p + ô + hp) + Tr(h)) < p, 


donde |7| < 1. La igualdad inversa análoga se puede escribir valiéndose del 
hecho de que Folt + 0) + hux(t + 0) > p. De aquí se deduce que ô= 
= Au) + mir), [mi] < 1, así que 


Gio + hv) — Go) 0. 


Ahora bien, la derivada g(Fo, v) en este ejemplo es igual a 
8(Fo, v) = —v(p). a (5) 


Es evidente que en el ejemplo 2, la funcional G(F)= 
= so |F(1) — Fott)| es también continuamente derivable en toda di- 


rección, ya que G(Fo) = 0, 


G(Fo + hi 
Elfo, 1) = HE sub loto. 


1 
En el ejemplo 3, la funcional G(F) = 10) — FAN ARU) para 
ò 


cualquier función de variación limitada R(1) es continuamente derivable 
(de orden k) en toda dirección, ya que 


Gash) | 


g(Fo, v) = EE a í; [vto¡FaR(O. 
è 
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La afirmación análoga es válida respecto al ejemplo 4 sobre la funcional 


(AF ~ AF 


G(F) = Ih 


m 
la cual será continuamente derivable de segundo orden, puesto que para ella 


G(Fo + hi (Av)? 
(Fo + 2 Y DN 


Fo, v) = 
8(Fo, v) k AF 


Ja 


En los ejemplos 2 — 4, la generalización de las funcionales son las fun- 
cionales de forma G(F) = G:(F — Fo), donde la funcional G, es homogé- 
nea en el sentido de que Giı(hv) = h*G(v). Es evidente que todas estas 
funcionales serán derivables. 

Enunciemos ahora el teorema principal de las funcionales de segundo 
tipo. Sea, como antes, Fo(t) = t, t€ [0, 1. 


Teorema 1. Si X € Fo y la funcional G(F) es derivable (de orden k) 
en sentido de la definición 1, entonces 


[G(F5) — G(Fo)lné? = g(Fo, w°), 
donde w° es el puente browniano. 


Demostración. Es sabido (véase, por ejemplo, [5]) que los compactos 
en el espacio métrico de las funciones continuas C(O, 1) con métrica unifor- 
me, se describen del modo siguiente. A cada función p(A) > 0, y(4) > 0 
para A — 0, y al número N > 0 le corresponde el compacto 


K = K(p, N) = {y€ CO, 1): wW) < p(4), IXO < N), 
donde wa(») es el módulo de continuidad y: 
waly) = sup DCD -= yiu). 


Designemos por K, el conjunto 
Ka = {y€ DO, 1): wa(y) < p(8) para todos A > h: |y(0)| < N). 


Los conjuntos Ka podrían llamarse “precompactos” (este término se utiliza 
en el análisis funcional en otro sentido) engendrados por el compacto K. 


Está claro que Ka, C Km para hı < hz, (Y Kin = K y que Ka (KO, 
nei 


donde (K)* es el e-entorno del conjunto K. 
Mostremos ahora que para ô> 0 dado existe el compacto K (y, por 
lo tanto, la familia de los precompactos K+ que le corresponden) y la suce- 
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sión ha > 0 para n — œ tales que 
lím sup P(w” (X»,) < ò. © 

En efecto, según el teorema 6.3, para toda funcional f que sea continua 

en la métrica uniforme se cumple f(w")= f(w°), donde w"(1)= 


= VI(FH(t) — 1), 0<1< 1. Como wal») es tal funcional, entonces 
wa(w") = wa(*). Pero wa(w°) — > 0 para A — 0, ya que las trayectorias 


de w° son casi seguramente continuas. Por consiguiente, para £ y ô dados, 
siendo A suficientemente pequeño, 


Plustw”) > €) < ô. 


Considerando, sin limitar la generalidad, el número como punto de conti- 
de la distribución wa(w”), obtenemos 


lím sup Píwa(w”) > €) < ô. 


Sea ahora ex 10 cierta sucesión, y los números Ax }0 son tales que 
lim sup P(wa,(w") > £x) < 5/2%*!, 
Formemos la función p(A) = £x para A€(Ax+1, Ax). Es evidente que 


p(A) + 0 para A—=0, y podemos examinar los precompactos Ka cons- 
truidos según la función p. Entonces para todo k < «o, 


ksi 
lím sup P(w" ¿Ka,) < lím sup 2) Píwa(w”) > ej) < 
ne mmen jei 


kai 
< È lím sup P(wa(w”) > £j) < 5/2 
a ame 


(para k = œ esta desigualdad puede ser injusta). La relación obtenida 
quiere decir que para cada ô existe la sucesión hn — 0 cuando n > o es 
tal que se cumple (6). Examinemos ahora la magnitud 

IG(F5) — GlFo)int” = g(Fo, w") + Ha(w”), 


donde H(x) = [G(Fo + x/Vm) — G(Fo)n*” — g(Fo, x). Puesto que, en 
virtud del teorema 6.3 y la definición 1, g(Fo, w") > g(Fo, w°), basta con 
que nos cercioremos de que 


Ha(w") 7 0. m 


Nótese que para todo compacto KC C(0, 1) y para toda sucesión 
ha > 0 cuando n > œ, 
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sup |Ha(x)| > 0. 
DO. 
AS 


Admitiendo lo contrario, llegaremos a la existencia de una sucesión 
Xn € D(O, 1) tal que [xn — x} > 0, x € C(0, 1), lím sup |An(x)] > 0, lo cual 


contradice la derivabilidad de G. 
A base de (6) y (8) obtenemos 


POAOw")] > 2) < PE) > e, w" € Kh.) + P(w" ¿Kh,), 
lím sup P(A_(w")] > £) < ô. 
Como ô es arbitrario, la relación (7) y junto con ella la afirmación del teore- 
ma quedan demostradas. < 
Volvamos a examinar los ejemplos. 


Sea y) la cuantila muestral de orden p para la muestra Y de la distribu- 
ción uniforme sobre [0, 1]. Entonces, de (5) y del teorema 1 obtenemos que 


(b — pWn = -w°(p) = w°(p). 
Hemos determinado, además, que en el caso general, cuando Fo es una 
función continua arbitraria de distribución, es válida la igualdad 
ts = Fo (m3). 


Si ahora utilizamos el tercer teorema de continuidad, obtendremos: 
Corolario 1. Si X, € Fo, Fo es continuamente derivable en el punto tp, 
NKE) = Fá(tp) > 0, entonces 


GER- ton > w/o). 


Para la demostración sólo es necesario señalar que las condiciones del 
corolario 1 significan la derivabilidad continua de Fy? en el punto p, 


E | 
ECO = R O TE 


Como Mw*(p) = 0, Dw°(p) = M(w(p) — pw)? = M(w(p)( — p) + 
+ p(w(1) — wo)? = pU — pY + p*(l — p) =p — p), la afirmación 
del corolario 1 también puede escribirse en la forma 


GR- EAE Por 0 = pU — P/f Ep). a 


En el ejemplo 2 derivamos la funcional G(F) = sup |F(t) — By 
por lo tanto, según el teorema 1, Gii 


G(Fin > Lp, wO. 
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Hemos hallado la distribución y = sup, |[w*(2)] en forma explicita ([58]): 
o<i< 


Pa > z)=K(z)=1+2 $ (nte, 
E 


La función K(z) se llama función de Kolmogórov. 
Hemos visto que en el caso general, cuando Fo es una función continua 
arbitraria de distribución, la distribución de la estadística 


D(x) = sup |Fa(1) — Fot) 


queda igual que para el caso Fo(t) = t, t € [0, 1]. De este modo hemos ob- 
tenido: 

Corolario 2 (teorema de Kolmogórov). Si X & Fo, Fo es continua, en- 
tonces 


Va D(X) € K. 


Esto significa que la desviación máxima D(X) de la función F5(1) de 
Fo(t) tiene el orden 1//n y puede representarse, aproximadamente, en la 
forma de D(X) = y/vn. 

En el ejemplo 3 hemos visto que otra estadística (la cual a menudo 
se designa por «*) 


als | EMO — FOP AFAN) 


también es invariante respecto a Fo. Del teorema 1 se deduce: 
Corolario 3. Si X € Fo, Fo es contínua, entonces 


na? =» j bwe(OPat. 


1 
La distribución l [w°()]?dt también fue hallada en forma explícita y» 


junto con la distribución K(z), está tabulada. Con arreglo al ejemplo 4, 
el teorema 1 nos da: 
Corolario 4. Si X € Fo, Fo es continua, entonces 


xn A (Ya, 
donde dy, j = 1, 2, ..., r, forman la partición del segmento [0, 1) y están 


definidos en el ejemplo 4. 
Si suponemos que E = (Er, ..., £), Es = 8yw"/V83) utilizando el hecho 
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de que ôjw° = ôw — w(1)ô;, donde w es el proceso wieneriano estándar, 
obtenemos 


z 
XÑ- A GALEN 
Aquí o? = Joy] es la misma matriz que en el ejemplo 7.3, puesto que 
BW" = ðw = E sw) = Y arw, 
T izi 


ary = 84, — Ôj, M(ôkw)(ôrw) = Sxibx 
(ön es el símbolo de Kronecker), 


MiS w" X5,w") S S < 
e qa 2 re 


1 
e (Eyár — 515,) = dy — Vöö. 
i Guði — 8d) = By 104 


z 
Repitiendo los razonamientos del ejemplo 7.3 obtenemos que 2] Y 
a 


tiene una distribución x? con 7 — 1 grados de libertad. 

Concluyendo este párrafo debemos señalar que no todas las estadísticas 
que representen interés pueden ser clasificadas como estadísticas de los ti- 
pos 16 II. Basta con examinar, por ejemplo, la estadística S(X) = 

n- 


= 2 xiX1+1 O las estadísticas S relacionadas con las funcionales G,(FF), 
a 


donde las funcionales G, dependen “considerablemente” de 7 (no sólo por 
la muestra), tales como, digamos, el término máximo de la serie variacional 
SA) = Xm = $1-1/n y Otras. 


$ 9”. Objeciones acerca de las estadísticas no paramétricas 


Hay una propiedad respecto a la cual la estadística ¿5 en el ejemplo 8.1 
se distingue considerablemente de las citadas en los ejemplos 8.2 — 8.4. 
Esta propiedad consiste en que la distribución límite de las estadísticas en 
los ejemplos 8.2 — 8.4 (véanse los corolarios 8.2 — 8.4) de ningún modo 
está relacionada con la función de distribución Fo, lo cual no se puede 
decir de la estadística $5 (compárese con el corolario 8.1). 

Definición 1. La estadística S(X) se llama asintóticamente no para- 
métrica si S(X) € Q cuando n > œ, y Q no depende de la distribución 
de X, o sea, no depende de Fo si X € Fo. 
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Cabe señalar que la propia función S en este caso puede depender de 
Fo. El término “no paramétrica” no es por sí mismo del todo acertado, 
no obstante, adquirió gran divulgación (está justificado en el caso en que 
Fo pertenece a cierta familia paramétrica — entonces la distribución Q no 
depende del parámetro y desde este punto de vista no es paramétrica). A 
veces se utiliza otro término: “libre de la distribución”. 

En los $$ 6—8 hemos visto que las estadísticas V7 U(X), Va D(X), 
nu? (X), XXX) son asintóticamente no paramétricas. 

También debemos indicar que el teorema 6.1 da la posibilidad de intro- 
ducir un concepto más estrecho. En dicho teorema se ha establecido que 
nF5() está igual distribuida que n(Fo(£)), donde n(u) es el proceso poisso- 
niano convencional con un parámetro arbitrario A > O a condición de que 
11) = n (véase el $ 6), o sea, dicho proceso no depende de Fo. Ahora bien, 
si la estadística S está construida como la funcional G(F%) (o G(F; — Fo), 
que es invariante respecto a la sustitución del “tiempo” £ en el argumento, 
la distribución de S no dependerá de Fo. Por ejemplo, 


D = sup [FCO — FolO] = È sup In(Fo(0) — ESO] = 


=} sup mu) — un. 0 


Lo dicho hace posible: 

Definición 2. La estadística S(X) se llama no paramétrica sì su distribu- 
ción no depende de Fo(X € Fo). 

Las relaciones (1) significan que la estadística D no es paramétrica. 

También hemos señalado (véase el corolario 8.3) que la estadística «*, 
al igual que D, no depende de Fo y, por lo tanto, tampoco es paramétrica. 

La estadística xê, siendo asintóticamente no paramétrica no poseerá la 
propiedad de carácter no paramétrico. De esto es fácil convencerse directa- 
mente en un ejemplo, poniendo r=2, n = 1. 

Obtenemos otros ejemplos de las estadísticas no paramétricas si exami- 
namos los valores de F(f), donde fp es la cuantila de orden p, así que 
nFi(¥p) = NP) (véase el $ 6). El número zy de elementos de la muestra X, 


menores que x; — la llamada estadística de rango — también será una 
estadística no paramétrica. 

Los conceptos de estadísticas no paramétrica y asintóticamente no para- 
métrica son muy útiles en la teoría de la verificación de las hipótesis estadís- 
ticas (véase el capítulo 3), ya que la distribución de estas estadísticas, la 
cual es necesaria para la construcción de los criterios, es suficiente calcu- 
larla sólo una vez (por jemplo, para la distribución uniforme de Fo) y será 
útil para cualesquiera otras distribuciones de la muestra. 
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$ 10%, Distribuciones empíricas suavizadas. Densidades empíricas 


En el $ 2 a cada muestra X la hemos puesto cn correspondencia con la 
distribución P% que hemos llamado empírica y la cual no es más que la 
suma de n distribuciones atómicas concentradas en los puntos Xi, .., Xn. 
Esta distribución posee varias propiedades magníficas descritas en los 
párrafos precedentes. Sin embargo, la definición de P}, utilizada por no- 
sotros, no es la única posible ni mucho menos, y en varios casos no es 
la más natural. También existen otros puntos de vista en cuanto a la defini- 
ción de P», según los cuales las propiedades útiles (estudiadas anteriormen- 
te) de las distribuciones empíricas no sólo se conservan por completo, sino 
que son completadas por varias nuevas. 

Aquí nos limitaremos a examinar la cuestión relacionada con la natura- 
leza de las distribuciones que situamos en los puntos x;. En la definición 
de P; que hemos utilizado, se trataba de las distribuciones degeneradas 
LB), así que E 

1 

PB) =} 2 LB). 0 
En este caso la distribución empírica es singular con respecto a la medida 
de Lebesgue y, por lo tanto, no tiene densidad. Esto puede resultar incómo- 
do en los casos cuando sabemos de antemano que la distribución inicial 
P tiene densidad. Con arreglo a esta condición sería conveniente tener una 
distribución empírica suave P} para la cual, junto con la convergencia 
P; > P, desde todos los puntos de vista establecidos anteriormente también 
tenga lugar la convergencia de las densidades f; + f, donde fa y f son las 
densidades correspondientes a P; y P. 

No es difícil obtener esto del modo siguiente. Sea Q cierta distribución 
que tiene densidad. Pongamos 


PB) = 1 (6) 


donde 2 es el conjunto de puntos y € 2 para los cuales x + yh € B; 


hn — 0 cuando n > œ. 

Es evidente que P%"(B) no es otra cosa sino la “suma media” de las 
distribuciones Q contraídas hasta las dimensiones A, y “situadas” en los 
puntos x:. La definición (2) generaliza (1). La fórmula (1) se obtiene de 
Q) si se pone Q = lo, ya que I(B) = Lo(B — x) = (272) para 


cualquier sucesión (An). 
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Señalemos las siguientes propiedades de la distribución PF" que llamare- 
mos distribución empírica suavizado, 

1. La distribución Pz" es la convolución de las distribuciones P} y 
Q(B/hn), y 


paco) = merca) = | (22 era 


es la convolución de las distribuciones P y Q(8/fn). Con otras palabras, 
P,(B) es la distribución de la variable aleatoria £ + han, donde ¿€ P, 
7 € Q. De los teoremas de continuidad se deduce que para A, > 0, 


P, =P. (6) 
Recordemos que para la distribución P hemos tenido la igualdad exacta 
=P 


2. Si la distribución P es absolutamente continua con respecto a la medi- 
da de Lebesgue, la distribución Pz" satisfará los teoremas análogos al de 
Glivenko — Cantelli. En efecto, en este caso la convergencia (3) significará 
la convergencia uniforme de las distribuciones sobre todos los intervalos. 
Para simplificar la exposición nos limitaremos a un caso unidimensional, 
supongamos que (F3*(x), Fa(x) y Q(x) designan las funciones de distribu- 
ción correspondientes a P%", P, y Q) 


F) - FO) = f (72) AFI) = F) = 


== [n060(%52) - Fo) 
= ne) — Foo) — | (50) — Fongo( 27>). 


Aquí, como ya hemos señalado, la diferencia Fn(x) — F(x) => 0 es uniforme 
en x, y la integral presente en el segundo miembro no excede 
sup |F5(») - FO» — + 0. 


3. La ventaja de P' en comparación con Pz, por cuya razón hemos 
introducido la primera distribución, consiste en que esta distribución tiene 
la densidad. 


Y 3 AUN 1 2e? 
mL Zel 2) lr o 
(q(x) es la densidad de la distribución Q) que para cada x, cuando n > eo 


y hn —0, se aproxima a la densidad f(x) de la distribución P. 
5—8030 
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Antes de demostrar la afirmación correspondiente, cabe señalar que pa- 
ra la obtención de buenos resultados acerca de la aproximación de fx(x) 
a fix), conviene utilizar las densidades limitadas suaves g. Al elegir, diga- 
mos, q indefinidas, la estimación f;(x) de la densidad suave Ax) empeorará 
premeditadamente. Como la elección de q está en nuestras manos, podemos 
considerar que, por lo menos, queda cumplida la condición 


d = | Pdi < w. 9 


Teorema 1. Si q satisface la condición (5), Ax) es continua y limitada, 
hn > 0 para n > œ de modo que nh, > œ, entonces 


SA) = falx) + En()/Vnha, (6) 
donde f(x) es la función no aleatoria 


O) = MA = Mar a (ZF) = (E) oa 
= f af — zhajdz > f) T) 
para hn ~ O. Las variables aleatorias f(x) son normales asintóticamente, 


En(x) € Boo), (xX) = SOJA”. 


Demostración. La suma en (4) es la suma de variables aleatorias inde- 
pendientes e igualmente distribuidas en el esquema de series, con la particu- 
laridad de que fa(x) = M/;(x) está representada en (7). Pongamos 


de EE) 00) 


En n= 


Entonces 


- E DEA J a 
FO -A T 2 tem Méx, n=0 


Mën et Miec = nho], 


M ia ez = = + f e Dana = 
= | Pae - zide = ao) f Podad. 8 


Ahora bien, MEL, „ ~f(x)d?/n si f(x) > 0. La condición de Lindeberg tiene 
en nuestro caso la forma 


aMtEbn; lër] > €) > 0 0) 
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para n > co y para cualquier £ > 0. Como Anf3(x) > 0, nél.n < Ug (xr — 
= X1)/hn) + hinfix)), entonces para cumplir (9) es suficiente que 


4 A 
me 3) al 7) > enn > 0. 


Esta relación tiene lugar, ya que su primer miembro es igual a (compárese 
con (8)) 


[| _POYA—2mdz<c | Podz 0. 
A> eaha l> ava 


a 
Ahora bien, a la variable aleatoria fa(x)= J, x,» es aplicable el 
A 


teorema central del límite. Esto demuestra el teorema 1. < 

En el problema sujeto a examen surge naturalmente la cuestión acerca 
de la elección óptima de An y de la función q(t). Sin embargo, su solución 
depende de las propiedades de suavidad de f(x). En efecto, supongamos, 
por ejemplo, que f(x) es positiva solamente en el intervalo finito y que 
es dos veces continuamente derivable con el valor fijo p = | (/"()'dx. 
Supongamos también que Í 2q(2)dz = 0 (esto es siempre así para las q(z) 


simétricas) y que D? = | 2?g(zJdz < «o. Entonces 
fax) = f QOAX — Zhn)dz = 


» EL ah 
= [a [A - charo + o + ote h| de 


a 
= go + EL f PalaJdz + o(d). 
Vemos que 


tpe 
fw) = So) = Pen, + E0 + o(hà), 


M -A = (PRON y E od ao 


La minimización de esta expresión en h, y q dará, en virtud de la norma- 
lidad asintótica de £1(x), la “dispersión” mínima posible de /X(x) alrededor 
del valor de f(x). No obstante, en este caso los valores minimizantes de 
hn y q dependerán de x mediante los valores desconocidos de f(x) y f” (x). 
Para evitar este efecto y obtener la optimalidad “por término medio” es 


5 
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natural examinar la integral 


| MLE) — SedPax a 


DRY, e i 
cuya parte principal será igual a ( +) p + -fy (esto se obtiene si 
x 


en (10) se retira o(h4)). a 
El mínimo de esta expresión se alcanza cuando An = Gi . Con 
tal elección de An, la integral (11) será igual a 


E IO 0) 


año -so (PES LL + o + o), 


E € boi. 


Ahora bien, aquí la velocidad de convergencia constituye sólo n”*% 
a diferencia de la velocidad n”*”, la cual tiene lugar para la convergencia 
de las funciones de distribución. Es un hecho natural, ya que en la estima- 
ción del valor de f(x) toma parte, hablando en términos generales, no toda 
la muestra, sino las observaciones que se han concentrado en cierto entorno 
decreciente del punto x. 

La expresión (12) permite también elegir del modo óptimo la función 
q(z), o sea, la función para la cual se minimiza Da”. Suponiendo, sin limitar 
la generalidad, que D = 1, obtenemos el problema de minimización d? = 
= | a*(zJaz a condición de que | q(z)dz = | 2g(z)dz = 1, | zą(z)dz = 
=0. 

Nótese que si f tiene derivadas continuas de orden más alto que 2m > 2, 
también pueden obtenerse velocidades más altas de convergencia de la dife- 
rencia f(x) — f(x) hacia cero. Sin embargo, en este caso es necesario 
utilizar las distribuciones generalizadas Q cuya “densidad” g puede 
tomar los valores de ambos signos y permite satisfacer las condiciones 
| ¿"a(gaz = 1, | z'g(z)dz = O para todos los 1 <j < 2m — 1. En este 
caso, mediante los razonamientos anteriores podemos obtener la velocidad 


2m , 
de convergencia de orden de n **T = n "° * Xan") la cual será tanto 
mejor cuanto mayor sea m. Este hecho se explica por la circunstancia de 
que para f(x) más suaves, en la estimación del valor de f(x) se incorporan 
los elementos de la muestra, situados en entornos cada vez más amplios 
del punto x. 
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Por otro lado, eligiendo funciones suaves g(z), podemos asegurar la po- 
sibilidad de estimar no sólo las densidades f(x), sino también sus derivadas. 
De esto también podemos convencernos a base de los razonamientos ante- 
riormente citados. 

La función fx(x), que tiene la forma (4), se llama frecuentemente esti- 
mación de Rosenblatt — Parzen de la densidad f(x) o estimación nuclear 
de f(x). En este caso las funciones q(z) se llaman núcleos. En la práctica 
se utilizan a menudo los núcleos “rectangulares”, O sea, se supone que 


= (! para z€[-1/2, 1/2), 
a penin 1/2). 


A veces se procede de un modo todavía más sencillo: la recta real se divide 
en pequeños intervalos Ay (de h, de largo) y se supone que fi(x) = PA 
para x € Ay, donde »y es el número de elementos de la muestra que coinci- 
dieron con Ay. Tal función fa(x) se llama histograma de la muestra. Es 
fácil comprobar que si f(x) es continua, entonces el histograma /5(x), a 
la par con la función definida en (4), también posee la propiedad de conver- 
gencia f(x) 7 Ax) si ha> 0, nha => ©. 


CAPÍTULO 2 


Teoría de estimación 
de los parámetros desconocidos 


El $ 2 contiene la descripción de las familias paramétricas más difundidas de distribuciones 
y sus propiedades principales. 

En los $$ 3—6 se exponen métodos principales de obtención de las estimaciones pun- 
tuales. 

En los $5 7 y 8 se examinan los enfoques de la comparación de las estimaciones. 

Los $$ 9—20 están dedicados a los métodos de construcción de las estimaciones óptimas 
(en uno u otro sentido). Se destacan las cuatro direcciones siguientes: 

1) (85 9—11 y 20) Enfoques bayesiano y minimax de la construcción de las estimaciones, 
Los $$ 9 y 10 son de carácter adicional y contienen las definiciones y la exposición de las 
propiedades principales de las esperanzas matemáticas condicionales y de las distribuciones 
condicionales. 

2) (55 12—15) Construcción de las estimaciones óptimas (eficientes) con ayuda de los 
principios de suficiencia y de no desplazamiento. 

3) (6$ 16, 17 y 22) Construcción de las estimaciones óptimas (eficientes) basándose en 
la desigualdad de Rao — Cramer. 

4) ($$ 18 y 19) Utilización de las consideraciones de invariación. 

En los $9 21—29 se estudian las propiedades asintóticas de la relación de verosimilitud. 
Sobre esta base se determina la optimación asintótica de las estimaciones de verosimilitud, 
Los resultados de los $$ 21—29 también constituyen la base de la teoría de los criterios Ópti- 
mos, desarrollada en el capítulo 3. 

Los $$ 31 y 32 están dedicados a la estimación por intervalos. 


$ 1. Observaciones preliminares 


Como ya hemos señalado en los párrafos precedentes, el objeto inicial de 
las investigaciones estadísticas está constituido por la muestra 


A Xa), H EZ 


de la distribución P, la cual es desconocida por completo o parcialmente. 
En la estadística matemática se destacan, en calidad de principales, las dos 
siguientes clases de problemas: 

1. Estimación de los parámetros desconocidos. 
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2. Verificación de las hipótesis estadísticas. 

Los problemas de primera clase aparecen cuando por la muestra 
X = X, es necesario estimar cualquier característica numérica desconocida 
0 de la distribución P (que ya es desconocida). O sea, para la funcional dada 

0= AP), 
de la distribución P debemos señalar la función de la muestra (o bien, que 
es lo mismo, la estadística) 
O = OX) 


destinada a la utilización, en vez del parámetro 6, en calidad de su aproxi- 
mación. En el capítulo precedente hemos visto que las premisas para esto 
existen. La estadística 0” se llama estimación del parámetro 0. Claro está 
que las estimaciones para el parámetro 0 pueden ser muchísimas. El teore- 
ma 1.3.1 muestra que, por ejemplo, para la estimación de la funcional 
0 = 0(P), que tiene la forma 


OS 


es natural utilizar la estadística 


al Nec. 


ter 


Pero claro que también se pueden examinar otras estimaciones, digamos, 


donde Xy» j = 1, ..., n, son los a de la seric variacional, etc, En 


calidad de 8* también pueden tomarse los valores que no dependen de la 
muestra, Se puede poner, por ejemplo, 9” = 0, aunque esto no siempre es 
racional y es completamente irracional cuando el conjunto de valores posi- 
bles de 9 no contiene 0. 

En relación con la última observación es preciso señalar que en el plan- 
teamiento del problema sobre la estimación se indica con frecuencia cuál 
es el conjunto © de los valores posibles de 0. Por ejemplo, si se aprecia 
la porción 6 de un mineral cualquiera contenido en la mena, entonces, claro 
está que elo, 1]. 

En muchos casos también se sabe de antemano que la distribución P 
de la muestra X no puede ser arbitraria, sino que pertenece a una familia 
determinada de distribuciones Z 
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Entre los problemas de la estimación de los parámetros figura el ejem- 
plo 1 dado en la Introducción. 

Los problemas de segunda clase se refieren a la comprobación de una 
y otra suposición (hipótesis) sobre la distribución desconocida P, Por ejem- 
plo, podemos verificar la hipótesis consistente en que P tiene una u otra 
forma dada. A este tipo de problemas pertenece el ejemplo 2 dado en la 
Introducción. 

Más tarde veremos que no hay diferencia cualitativa entre los problemas 
de primera clase (teoría de las estimaciones) y de segunda clase (verificación 
de las hipótesis estadísticas}. 

En este capítulo expondremos los planteamientos de los problemas y 
los enfoques que están íntimamente vinculados con los resultados del capí- 
tulo precedente y que pueden llamarse “puramente estadísticos” a distin- 
ción de los enfoques más generales de la teoría de los juegos, que se 
examinan en el cap. 5. 

Los enfoques puramente estadisticos expresan, en cierta medida, la 
esencia de los métodos de la estadística matemática. Históricamente tales 
enfoques fueron comprendidos mucho antes que los métodos más genera- 
les. En cuando a su aplicación, por lo visto, el hombre los utilizaba explícita 
o implícitamente a lo largo de todo el proceso del conocimiento. 

Todo esto justifica la exposición independiente de los enfoques pura- 
mente estadísticos, a pesar de que ciertos momentos de esta exposición pue- 
den considerarse como casos particulares en el marco de las concepciones 
más generales. Al mismo tiempo revelaremos cierta insuficiencia del enfo- 
que puramente estadístico para planteamientos más exactos de los proble- 
mas. Esto nos ayudará a comprender el carácter racional de otros puntos 
de vista. 


$ 2. Algunas familias paramétricas de distribuciones y sus propiedades 


Examinemos algunas familias de distribuciones que dependen de los pará- 
metros (o familias paramétricas de distribuciones) que con frecuencia sur- 
gen en los suplementos y que aparecerán en la exposición ulterior tanto 
de hecho como en calidad de ilustraciones. 

1. Distribución normal en una recta. Con el símbolo $,.* designare- 
mos la distribución normal con los parámetros (a, 0”), o sea, la distribu- 
ción de densidad 


Po = e 


así que 
Pao(B) = fraconax. 
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Si £ € ®o,ı y K>0 es un número entero, entonces, evidentemente, 
Mp**!=0, 


Para los momentos de orden par, utilizando la sustitución x = VZu, encon- 
tramos 


a e E A 
Me = jo Pe E Je > 
Era 1/2), (0 


donde TA) = (+ "le“"dx es la función T, TŒ) =Q- DPA -— 1), 
f} 
T(/2) = vr, así que 
MP” = (2k — 1)! = Qk- DOk-3) ... 1. 

También obtendríamos este resultado si hubiéramos derivado 2k veces 
la función característica e”? en el punto f = 0. 

2. Distribución normal multidimensional. En el caso multidimensional 
X= R", el símbolo a, significará la distribución normal en R” con el 
vector de esperanzas matemáticas a = (%, ..., œm) y con la matriz de se- 
gundos momentos centrales a? = Joy) i j = 1, ..., m, Si A es la matriz 


inversa a o” (en los casos cuando ella existe), entonces la densidad pa,o 
(x) en R” de la distribución Pa, tiene la forma a (véase (11), p. 148) 


0.000 = Er ao (- 7 00 040: Y), 


donde x” es el vector transpuesto. Recordemos también (ya hemos utilizado 
este hecho en el $ 1.7) que la función característica de la magnitud £ € 
€ Bao es igual a 


Me? = apta” - 3 we), 


donde t= (f, ..., tm) es el vector en R”. 

3. Distribución gamma. El símbolo Pa, x designará la llamada “distribu- 
ción gamma” (o distribución T) con los parámetros (œ, A). La densidad 
Ya, MX) de esta distribución depende de dos parámetros œ > 0 y A>0 y 
es igual a (véase [11] y $ 7 del cap. 6) 

eS Re, x>0, 
Ya. =>] o pu o 
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donde T'(») es la función T -definida en (1). La función característica de 
la distribución T tiene la forma ((11)) 


[erascons = (1-4) E o 
2 


Si £ € Paa, entonces 
a a Í +t=lg- ax, a” 
ME= T f a 
è $ 


7 


proeza pao 0 


Para enteros f > 0, el mismo resultado podría ser obtenido derivando la 
función característica. Poniendo 7 = 1, 2, encontramos 


Mg =Ma, DẸ =Ma? (5) 


De las fórmulas (3) y (4) se deduce que el parámetro œ desempeña el 
papel de escala, asi que 


Ma € Par si 9 € Ma 


En virtud de esta circunstancia, muchas propiedades de la distribución 
T pueden ser estudiadas para un valor cualquiera de a, por ejemplo, para 
a = 10 para œ = 1/2. A menudo el segundo valor será para nosotros más 
cómodo, ya que la distribución T172, desempeña un importante papel inde- 
pendiente en la estadística matemática y se llama distribución “ji- 
cuadrado” (o distribución x?). 

4. Distribución “Ji-cuadrado” Hycon k grados de libertad. Así se deno- 
mina la distribución Hx = T172, 1/2 cuando k > 0 son enteros. Conservare- 
mos esta denominación para la distribución Hx cuando también se trate 
de k > 0 arbitrarios. En virtud de (3), la función característica de la distri- 
bución Hx es igual a 


(2972, 
Indiquemos las tres siguientes propiedades de la distribución Hx. 
1) Si y son independientes, m € Mx, i= l, ..., $, entonces 
A s 
Emn € H, k= Y k 
imi A 


Esta propiedad se deduce directamente de la forma de la función caracterís- 
tica de la distribución Hz. 

2) Si E € a.o, donde Èa, es la distribución normal k-dimensional 
con la matriz no degenerada de segundos momentos o”, entonces 


42. ALGUNAS FAMILIAS PARAMÉTRICAS 15 


QW =(E- ajo UE TEM 
En efecto, la función característica de la variable aleatoria Q(£) es igual 


Me'20 — MESA fen(-3 ewa - 20) ax, 0. de 


Sustituyendo las variables xy VI — 2if = yj, obtenemos la expresión 


d = 2) Aea fe E ay, |.. dye = 0 = 0*7, 
m) 


que es lo que se necesitaba demostrar. El hecho de que la integral en el 
primer miembro no depende de la variación del dominio de integración 
se deriva de la analiticidad de la función subintegral y de su decrecimiento 
rápido cuando || co (compárese con [11], p. 131). 

De lo dicho resulta que la distribución H está contenida en la variable 
aleatoria 


As. + El, 
donde £, son independientes, Ey € %o,ı. El término “número de grados de 
libertad” está precisamente relacionado con esta representación. 

3) Como MÉj = 1, MÉf = 3, DẸÎ = 2 para E, € Bo, 1, entonces, en virtud 

del teorema central del límite, para k-o, 

E e o. © 
De aquí y de los teoremas de continuidad enunciados en el § 1.5 se deduce 
que a la par con (6), 

VE AMUET E to. 

Esta convergencia sirve de base para la igualdad aproximada (en caso de 
k y x grandes) H£(0, x) = d(V2x — V2K- 1), P(x) = #o,((- 0, x)), 
Jda cual, por regla general, resulta más exacta que la aproximación 
H(0, x) = (35) que se deduce de (6). 


Señalemos otro caso particular de la distribución T, el cual aparece a 
menudo en las aplicaciones. 
5. Distribución exponencial. Es la distribución T«,ı de densidad 


%x>0 
De las fórmulas (5) obtenemos, para E € T., 


Mê = I/a, DẸ = 1/0. 


ae~ 


a. 
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Examinemos ahora ciertas distribuciones relacionadas con las distribu- 
ciones normal y gamma y que desempeñan un papel importante en la esta- 
dística matemática. A distinción de las anteriores, con estas distribuciones 
no hemos tropezado anteriormente, 

6. Distribución de Fisher Fx,x, con kı y kz número de grados de liber- 
tad. Así se llama la distribución de la variable aleatoria 


3 = m/m, 


donde », son independientes, ¿€ Hx, j = 1, 2. De las propiedades de la 
distribución T se deduce que la distribución de y queda igual cuando 
ET, xy2 y para cualquier a > 0, y que y cuando ky son enteros, admite 
la representación 


fa +... +t 
IA 


donde las variables aleatorias E, fe son independientes, E Do,1, $4 EPo,1. 
Hallemos la densidad de la distribución Fx,,x,. Tenemos 


=%="du dv; 


E e 
rE<x= Af racaoriacio - J, tr 


7 A =1,m=1 


D Egon, TO) 
0) f ett Ddo A O 


Es evidente que la densidad necesaria se obtiene si aquí se sustituye 
N = Kky/2. Es fácil determinar los momentos de la variable aleatoria $ (si 
éstos existen): 


me = TOA +N) Ropa PO, + DPQ -D 
TONO) | As O O 
En particular, cuando } = 1, 2, obtenemos 
y 25 -_MQ1 +1) 
ms =1* MD" 


La distribución de Fisher también a veces se llama distribución de Sne- 
decor. Esto se debe al hecho de que Fisher propuso utilizar y tabuló, en 
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realidad, no la distribución de ¿, sino la de la variable aleatoria 4 Inġ. 
En cuanto a la distribución de f, ésta fue tabulada un poco más tarde por 
Snedecor 

7. Distribución de Student Tx con k grados de libertad. Esta es, por 
definición, la distribución de la variable aleatoria 


to 


VE + ED 


donde ¿y son independientes, ¿E Bo, , j = 0, k. Es evidente que —1 
tiene la misma distribución y, por lo tanto, la distribución de Student es 
simétrica con respecto al origen de coordenadas. Luego 


és kB > _km 


t= 


donde », son independientes, nı €H,, 726 Hs. Esto quiere decir que 1/k 
tiene la distribución de Fisher, Examinemos la variable aleatoria 7 = Vf, 
t= m/m 1¿€Hx, Como P(r < x) = P(¢ < x°), la densidad f(x) de la 
variable aleatoria 7 será igual a 
> TA. A 
LADO OS THP = 
DO tA) AA J 
-FO ` mr AN N = ky/2, x> 0. 


De aquí, cuando à; = 1/2, Mz = k/2, se puede obtener, de un modo eviden- 
te, la densidad |1| /VK. Como la distribución de £ es simétrica, para la 
densidad f(x) de la variable aleatoria f tenemos finalmente 


T(k + 1/2) 2y4rda 
so = ER Teq y” 


Por supuesto que todos los momentos de £ de orden impar (si existen) son 
iguales a cero, Para los momentos de orden par 2/ tenemos, en virtud de (8), 


MP = mp = kK Dt MD, 


(9) 


TADO) 
donde es necesario poner A, = 1/2, ao k/2, 21 < k, Sil = 1 obtenemos 
M? = e =y 


> Student es el seudónimo de W. S. Gosset. 
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Según su forma, la función f(x) se parece a la densidad de la ley nor- 
mal. Además, con el crecimiento de k, 


-an 


109 = g A 


que significa la convergencia £ € ®o,ı cuando k +00. Sin embargo, fu) 
tiene “colas más gruesas”, puesto que con el aumento de |x|, la función 
(9) disminuye mucho más lentamente que e™™?, así que para todos 
b>0, 


Tk((—b, b)) < Boi((—b, b)). (10) 


En este caso, la diferencia entre el segundo y el primer miembro en (10) 
puede ser considerable cuando k no son grandes. 

El lector también puede demostrar la convergencia £ = Vko /Vn2 
hacia la ley normal, utilizando otra vía, por medio del teorema de continui- 


dad. Por ejemplo, basta con notar que TÈ =} (+... + aly 


k k 
por lo tanto, £ q> $o, £ = o. 


8. Distribución beta (B-distribución). Así se llama la distribución Bd, )2z 
de densidad 


TOA: +A) 
Lila DAN 
o, x40, 11 
Se denomina así debido a la función beta 


Ta- x<, xelo, 1), 


, 
BO») = porto pta ESOS. 


La distribución beta está relacionada con la distribución gamma y la 
distribución de Fisher por medio de la afirmación siguiente: 
Si n, son independientes, ¿E Pa, y (0 bien y¿€H»,), entonces 


E. e 
E fer A 


donde $ = m/m € Fru, 2. 
La demostración de esta afirmación es muy fácil, ya que en virtud de 


mr <o=r(s< 2). 
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1000 = fo (5 E) = TAOS a 


Lrt- PUE A 
HUA TANO) 


Para los momentos de la variable aleatoria 8 tenemos 


a = x7’, x € {0, 1]. 


i 
y DTA +) A dy = TA +AA: +1 
MP'= TOOD k E ERE 


Para / = 1, 2 obtenemos 


` 2m MA+D 
mru’ M =F NI 


9. Distribución uniforme. La distribución uniforme sobre [0, 1], que 
se obtiene si se pone à; = » = 1, es un caso particular de la B-distribución. 

Designaremos con el símbolo Us,» la distribución uniforme sobre el seg- 
mento [a, b], así que Bi, = Ub, 

Con ayuda de B-distribución se puede describir la distribución de los 
términos de la serie variacional xw) de la muestra X. 

Teorema 1. Si X € P es la muestra de la distribución P con la función 
continua de distribución F, entonces 


Ye) = Fw) E Brn-esi 


Demostración. Como yx = F(xx) € Uo, 1 entonces Ya) = F(xw) puede 
considerarse como término de la serie variacional de la muestra Y € Uo,:. 
Determinemos P(w) € (uu + du)). El suceso (ya) € (u, u + du) se puede 
representar como la unión de los sucesos disjuntos 


M$ = 


Aj = (yy € (u, u + du), yy = Yo), 
que se producen cuando yy adquiere el valor de (u, u + du) (esta probabili- 
dad es igual a du), cuando k — 1 observaciones, de las n — 1 restantes, 
caen en el campo de valores de (0, x), y cuando n — k observaciones caen 
en el campo de valores de (u, 1). Por consiguiente, 

PA) = CiZlubZ 20 — uy" da, 

PO) € (u, u + du) = Cil — uy" du. 

Esto precisamente significa que la densidad yœ) existe y es igual a 


nt -ig te P+D 


r u*- n- 
(k-n — La TAN- k+) AS 
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Basándose en el teorema 1 también es fácil obtener la distribución límite 
de los términos de la serie variacional cuando el volumen de la muestra 
X crece ilimitadamente. Aquí sólo examinaremos un resultado que se deriva 
de los teoremas de continuidad. 


Teorema 2, Si a == E > æ € (0, 1) cuando n=<o, entonces 
Ey 
PA EA 


Demostración, En virtud del teorema 1, Ya) € Bx, n- x + 1 Y, Por lo tanto, 
en virtud de las propiedades de la B-distribución, es válida la representación 


Y E Be kı =2k, kı = X(n — k + 1). 


Pongamos, para comodidad, a, = a, az = 1 — a, y supongamos que a = ao 
ha sido fijado. Entonces, evidentemente, ky/(n + 1) = 2a,, j = 1, 2 y, en 
virtud de la propiedad de la distribución x?, 


m= + 2K, EP O 6 dos 


e 
Nos queda utilizar el teorema de continuidad 1.5.3JA para 
1 
H(t) = = e 
0 o e N 
Como w (y, por lo tanto, también £/) son independientes y 
te ôH h 


IE ass y 
A m+’ da (a + 1) 
obtenemos 


0m-aNa+T = ada ada E Vaj Et € os 


Si a depende de n, entonces conviene utilizar la observación 1.5.1, < 

Corolario 1. Si a = k/(n + 1)00 € (0, 1) y la función continua F es 
continuamente derivable en el punto $o = F”*(as) (cuantila de orden a), 
entonces 
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Vao(l — a) En 
Son 


donde $ = F-'(a) es una cuantila de orden a, fix) =F'(x). 
Esta afirmación se obtiene directamente del teorema de continuidad 
1.5.3 (teniendo en cuenta la observación 1.5.1) si se utiliza la representación 


E DI) 


Ai 
y el hecho de que “A m > o 


Observación 1. La afirmación (11) generaliza, de cierto modo, la afirma- 
ción del corolario 1.8.1. La misma también puede ser generalizada en otro 
sentido, Sea, para x>f, 


LEG) FG) | =c|x- t|’, y>0. 
Entonces es fácil ver que, cuando ya, 


x= i+ » En E Dos, an 


|E=1G0) — Fa) | ~ 


y, por lo tanto, a 
Gay- mE a (all a) |t |” sient, 580. a2) 


Cuando y = 1, c = f(t), de aquí se deduce (11). 
10. Distribución de Cauchy Ka, , con parámetros (a, 0). Así se llama 
la distribución de densidad 


a 
Ka, Ax) = terpei 


Al igual que en el caso de la ley normal, aquí ios parámetros œ y ø son, 
respectivamente, los parámetros de desplazamiento y de escala, La forma 
de la distribución Ko,ı es muy semejante a la de Bo,,, sin embargo, Ko, 1, 
al igual que la densidad de la distribución de Student, tiene “colas mucho 
más gruesas” (o sea, un decrecimiento más lento cuando |x| ->00), así 
que la distribución Ko, no tiene incluso una esperanza matemática finita. 
En [11] hemos señalado (véase el cap. 7) que las distribuciones Ka, o, al 
igual que las distribuciones normales, poseen propiedad de estabil 
función" característica xo,1(1) de la distribución Ko, es igual a 


xon(t) = el, 
por eso xa, olt) = expliat — 011), 


6—8030 
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Xan a(U)Xa, alt) = expli + a)t — (a + 09111), 


así que la convolución de Ko, o, Y Kaz, o; €S igual a Ka, on, 07 +03 NO €S 
difícil ver que Ko,ı = Tr 

En las aplicaciones se encuentran con frecuencia las funciones de dife- 
rente género de las variables aleatorias normalmente distribuidas. Una de 
ellas es la función exponencial con la cual está relacionada la llamada distri- 
bución lognormal. 

11. Distribución lognormal L.,.?. Diremos que y € La,er si In 7€ 
E Bo. 1. En otros términos, y = ef, donde Ẹ € Bo, .?. De aquí se deduce 
que la distribución L«,o está concentrada en el semieje positivo. 

La densidad de y € La,o, en virtud de las fórmulas para la densidad 
de la función de la variable aleatoria (véase [11], p. 53), es igual a 


Pa.rlln 1)? 


Además, hallamos 


mr- jo ec, ya ep SA 
> 
1 e M1) eaten 
ed e a 
mp fes gh e E dy = 2er, 


12. Distribución degenerada. El símbolo Ie (ya hemos utilizado esta de- 
signación en el $ 1.2) significará la distribución degenerada concentrada 
en el punto a. 

En el caso general, cuando se examina una familia arbitraria de distribu- 
ciones que dependen del parámetro 9 (escalar o vectorial), utilizaremos la 
designación Po. La propia familia se designará con el símbolo 


{Pejo 


donde © es el conjunto de valores posibles del parámetro 6. Estas mismas 
designaciones se emplearán para las familias de distribuciones 1—12, Por 
ejemplo, (P,1)aee significará la familia de todas las distribuciones nor- 
males con una varianza unitaria. 

Las distribuciones 1—11 son absolutamente continuas con respecto a 
la medida de Lebesgue. Introduzcamos ahora las designaciones para tres 
distribuciones discretas bien conocidas (absolutamente continuas con res- 
pecto a la medida de cálculo (B):4(B) = k si B contiene k puntos de valores 
enteros). 

13. Distribución de Bernoulli BZ. Según la definición, ¢ € Bf (n es 
un número entero, p € [0, 1)) si 
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P = k) = Chp" —-pyr%, 0<k<n. 


14. Distribución de Poisson Ih. Esta distribución se determina por me- 
dio de la igualdad 


15. Distribución polinomial. Designaremos esta distribución por BF, 
donde n > 0 es un número entero, p = (Pr, -.-, P) 220, Sa = 1. 
Para el vector aleatorio entero » = y, ..., vr) escribiremos » & B? si para 
k= (ku -a Ki), kj > 0, En = n es válida la igualdad 


n! 

A 

La distribución Bf corresponde a la sucesión de n pruebas independien- 
tes, en cada una de las cuales se produce uno de r casos posibles incompati- 
bles Ar, ..., Ar entonces la probabilidad de que aparezca el caso Ay en 
una prueba es igual a p, Las coordenadas », del vector » significan las 
frecuencias de aparición de los sucesos A, después de n pruebas (véase, 
por ejemplo, (11]). Es evidente que para cada j = 1, ..., r 


», € Bi 


En el experimento ilustrado, el caso de la j-ésima prueba puede ser descrito 
por el vector de r-coordenada xy, cuya r — 1 coordenadas son iguales a cero, 
y una coordenada es igual a 1. El número de esta coordenada es el número 
del suceso que se produjo en la j-ésima prueba. Evidentemente que 


Pes A 


v= Jx; Con respecto a la muestra X, formada por xı, Xm NOS 
=i ~ 


será más cómodo escribir 


X €B, 


donde Bp = B}. El espacio Zpara tal muestra es, por lo visto, finito y cons- 
ta de r puntos. Si p = (p, P2), pı + p = 1, obtendremos el esquema de 
Bernoulli, para el cual utilizaremos las mismas designaciones, identificando 
B(p,, pa) con Bp, = B), (véase el subpárr.13). En el caso general, la distri- 
bución Bp depende, en realidad, solamente del parámetro de dimensión 
r= 1 (ps ...» Pr-1), así que en vez del índice p se podría escribir (Pi, 
ee Prat) 

Muchas de las distribuciones examinadas más arriba, por ejemplo las 
er 
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distribuciones Po, Hx, Fru, £ To Ih, están tabuladas en los manuales 
de estadística matemática y se ofrecen en tablas especiales (véase, por ejem- 
plo, [8)). 


$ 3. Estimación puntual. Método principal de obtención de estimaciones. 
Conciliabilidad. Normalidad asintótica 


1. Método de sustitución. Conciliabilidad. En el $ 1 hemos introducido 
el concepto de estimación. Formalmente, estimación es lo mismo que esta- 
dística, o sea, toda función medible 9” de una muestra. No formalmente, 
el sentido que se le da a este término consiste en que llamamos estimaciones 
6" sólo a las estadísticas que deben utilizarse en vez del parámetro descono- 
cido 6. Con otras palabras, 0* es cierta aproximación para 6, basada en 
la muestra, La magnitud 0* también se denomina estimación puntual para 
0, a distinción de las estimaciones por intervalo que serán examinadas más 
adelante, 

La representación de una estimación presupone, de ordinario, la repre- 
sentación de funciones (de la muestra X,) definidas para todos los valores 
posibles de n. Por eso, en lo sucesivo el término “estimación” significará 
la familia de estadísticas 0* = 05(X,) definidas para todas los n = 1, 2, ..., 
donde 9” es la función sobre 2”, o bien, que es lo mismo, una función 
0” = 0'(n, X») definida en el producto del conjunto de números enteros 
y 2”. 

De acuerdo con el $ 1, consideraremos que en el planteamiento del pro- 
blema de estimación está definido el conjunto O de los posibles valores 
del parámetro / y la familia Pde las posibles distribuciones P de la muestra 
X (que pueden ser, digamos, sólo las distribuciones normales Pa, ı o las 
distribuciones de Poisson M para las cuales es preciso estimar los paráme- 
tros desconocidos a, A). Si faltan cualesquiera limitaciones para 0 (o para 
P), entonces podemos considerar que 4%coincide con el espacio euclidiano 
de dimensión correspondiente (con el conjunto de todas las distribuciones). 

Si para designar el parámetro, en vez de 0 se utiliza otra letra cualquiera, 
por ejemplo à, las estimaciones de este parámetro se designarán del mismo 
modo: añadiendo a \ el índice superior en forma de asterisco. Por ejemplo, 
para el parámetro a de la ley normal es natural examinar la estimación 

a =l 
n 
izi 


Los momentos muestrales que se utilizan para la estimación 
Mx: = (xP(dx) y Dxı = [(x — Mxı)’P(dx) 
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tienen sus designaciones especiales tradicionales 


l ay nl Na. 


Tea an 


Ya hemos señalado que para el parámetro dado se pueden indicar varias 
estimaciones, tantas como se quiera, y antes de examinar de qué modo en 
cada situación concreta conviene comparar sus cualidades, fijaremos la 
atención en ciertos métodos “regulares” generales de su construcción. 

Estos métodos agrupan en sí los enfoques más racionales del problema 
de estimación y posteriormente nos permitirán obtener las mejores estima- 
ciones en uno u otro sentido. 

Casi todos los procedimientos de estimación se basan en el siguiente 
método principal, que podría llamarse método de sustitución de la distribu- 
ción empírica (o simplemente método de sustitución). 

Sea Xn € P y representemos el parámetro desconocido 9 en forma de 
cierta funcional G de la distribución P: 


0 = G(P) > 


Supongamos, luego, que P4 significa, como antes, la distribución empírica. 
Entonces, el método de sustitución prescribe que en calidad de estimación 
0* se tome la función E 

8 = G(P5). 


Tales estimaciones serán llamadas estimaciones por el método de susti- 
tución o simplemente estimaciones de sustitución. 

La funcional G se da, a veces, en forma implícita como solución de 
cierta ecuación H(0, P) = 0, resoluble con respecto a 0. En este caso, en 
consonancia con la definición principal, llamaremos estimaciones de susti- 
tución a toda solución de la ecuación H(0, Ps) = 0. 

Si se sabe que el conjunto de los posibles valores del parámetro 9 € 
ER“ está limitado por el dominio © de R*, el cual no coincide con R*, 
esta información se puede tener en cuenta al construir las estimaciones de 
sustitución. Admitamos que el domino O está cerrado y sea Pel conjunto 
de las posibles distribuciones de la muestra X, O = (G(P)]pea Defina- 
mos la funcional G,(P) para P arbitraria, como el valor de 1 € O para 
el que se alcanza 


mía | 1 G(P)| = | GP) - GR), o 


así que Gi(P) es el punto de O más próximo a G(P) Como 
Gı(P) = G(P) = 0, si P € 2 entonces la estimación 


9 = GPi), a) 
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junto con G(P%), será la estimación de sustitución, con la particularidad 
de que el conjunto de los posibles valores de 8° pertenecerá a O. 

En cuanto a las estimaciones (1) y (2) diremos que se han obtenido debi- 
do a la contracción del método de sustitución. 

Supongamos, por ejemplo, que se estima el parámetro œ de la distribu- 
ción normal ®«,ı y que sabemos de antemano que a € [0, 1]. Entonces 
puede resultar que la estimación a” = Xg [0, 1] (evidentemente que 
X= O) es la estimación de sustitución). La contracción del método 
de sústitución recomienda en calidad de estimación tomar el punto (0, 1] 
más próximo a X. 

Señalemos ahora, que en la forma enunciada, el método de sustitución 
no siempre tiene sentido. El hecho consiste en que la funcional inicial G 
puede resultar no definida sobre el conjunto de distribuciones empiricas. 
Supongamos, por ejemplo, que es sabido de antemano que la distribución 
P pertenece a la clase 4 de distribuciones absolutamente continuas con 
respecto a la medida de Lebesgue, así que cada Pe Ẹ tiene una densidad 
igual a f. 

Pero a nosotros nos interesa el valor de 


0=6P)= fora = (2ye 


Está claro que en este caso G(P5) no tiene sentido, ya que P; es una distri- 
bución discreta. En tales casos el método de sustitución siempre puede ser 
modificado naturalmente de manera que conserve su esencia. En el ejemplo 
citado, donde G(P) es la funcional de la densidad f, conviene, en calidad 
de 6”, examinar, de acuerdo con el método de sustitución, el valor de 
G(P5"), donde Ps" es la distribución empírica suavizada (véase el $ 1.10) 
que asegura la convergencia de la densidad empírica hacia f(x). 

También puede resultar que en algunos casos G(P4) tenga sentido no 
para todas las Xn, sino sólo para X, € An, donde P(X, € An)>1 cuando 
n=œ. Esta circunstancia no tendrá ninguna importancia en cuanto a la 
esencia de la exposición ulterior del material, y para precisar podemos po- 
ner G(P}) = 0 para Xn € An. En este párrafo, para simplificar, estimaremos 
que G(P, tiene sentido para todas X, € 2”, y que 9” es una variable aleato- 
ria, o sea, que la función G(P») realiza la aplicación medible de 2” en 
R*, donde k es la dimensión de 6. 

El principio de sustitución es un enfoque muy natural del problema, 
puesto que, como ya sabemos, la distribución P% se aproxima ilimitadamen- 
te a P a medida que crece 7. 


Definición 1. La estimación 9” = 9;(X;,) (o la sucesión 05(X)) se llama 
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conciliable si n 
ea 
P 
cuando n— oo. 


La estimación 0* se denomina fuertemente conciliable si, para n— oo, 
eo 


Sea F; como siempre, la función de distribución correspondiente a P. 
Teorema 1. Supongamos que 0 = G(P) y que la funcional G pertenece 
a una de las dos clases, o que es representable en la forma 


GE) = hfECOAFO)), 0 


donde h es una función continua en el punto a = fedro) (funcional 
de tipo I), o representable en la forma 


G(P) = GP), an) 


donde la funcional G, es continua en el punto Fa, en la métrica uniforme 
Uuncional de tipo 1). Entonces, si X € Fo, 9” = G(P5) es una estimación 
Juertemente conciliable: 

e 0 


La afirmación de este teorema se deduce directamente del teorema 1.4.1. 


2. Normalidad asintótica, Caso unidimensional. 

Definición 2. La estimación 6” del parámetro 0 se llama asintóticamente 
normal (a.n.) con coeficiente a? > 0, si (9* — 0) Vn € Lo: 

La última relación también puede leerse del modo siguiente: la estima- 
ción 0* a.n. con los parámetros (0, a/n). 

Supongamos que 0” es la estimación de sustitución del parámetro 
9 = G(P) y que se cumple (1), o sea, que 


e= i 2 84) 6) 
es una estadística de tipo 1. Entonces, de los resultados del § 1.7 se deduce 


la afirmación siguiente. Supongamos que $ es un parámetro escalar, y g, 
una función escalar. 


Teorema 2. Sea XEFo, h derivable en el punto a =[el0dFwo, 
0< |h’ (a) | < ©, |g? (x)dFotx) < «o, Entonces 6” es la estimación a.n. con 
coeficiente 


o = [h aP] (e) — aaa. 


88 CAP. 2 TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


Los ejemplos examinados en el $ 1.7 también pueden utilizarse como 
ilustraciones de este teorema, ya que las estadísticas examinadas en ellos 
se utilizan en calidad de estimaciones. 

Análogamente podríamos, utilizando los resultados del $ 1.8, obtener 
las condiciones de normalidad asintótica de las estimaciones que son esta- 
dísticas de tipo IL. El lector puede obtener las afirmaciones necesarias, utili- 
zando el teorema 1.8.1 sin cualesquiera modificaciones, pero exigiendo, no 
obstante, que en su enunciación se cumpla k = 1, y que la derivada g sea 
tal que g(Fo w°) € Poo. 

3. Normalidad asintótica, Caso de parámetro multidimensional. 


Definición 2A. La estimación 0” = (0i, ...., 0k) se denomina estimación 
an 0 = (01, -.., Ox) con matriz o, si 
(0 = 0) /n € Los, a) 


donde $,,.: es la distribución normal k-dimensional con vector pulo de 
las esperanzas matemáticas y con matriz de segundos momentos o? = |oyl. 
La densidad de esta distribución es igual (véase el $ 2) a 
VTA Laa, 
b = Lt 
oal) Ear 


donde A es una matriz inversa a 0%, x= (Xi, -.., Xk). 

Si 0* es la estimación de la sustitución y la misma es una estadística 
de tipo I (o sea, representable en forma de (3), donde g, hablando en gene- 
ral, junto con 9” y A, es una función vectorial), entonces, para determinar 
las condiciones de normalidad asintótica se puede utilizar el teorema 1.7.1A 
y la observación a él. En este caso obtenemos la afirmación siguiente. 

Teorema 2A. Supongamos que 9* € R“ se define por la igualdad (1), 


dondeg = (81, ..., 2i) ER, y la función vectorial h(t) = (M0, ..., Ax), 

t= (hh, ..., ts) tiene en el punto a = (41, ..., as), aj = [ada las 

derivadas parciales HL (a), 1=1, ..., k, j=1, 0001 s. Entonces, si 
7 

XEF 


(0 — On = $H", 


donde £ = (Er, ..., Es) E oa es el vector normalmente distribuido, con 
la media nula y la matriz de segundos momentos di = ldil, dy = Mgdx:)- 
-aMelx) a) L j=l, ..., 5 H= ul es una matriz de dimensión 


kx s, con los elementos hy = qn TE FENE 


“s 


Esto significa, a su vez, que E cumplirse las condiciones del teorema 
2A, 0* es una estimación a.n. con matriz o? = Hd? HT = MHE EH”. Cabe 
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señalar que las matrices o? y d? aquí tienen, hablando en general, dimensio- 
nes diferentes (k y s). 


$ 4. Realización del método de sustitución en el caso paramétrico. 
Método de momentos 


Sea X € Py donde (Psjoce es la familia de distribuciones Pe que ya co- 
nocemos y que dependen del parámetro 9. En nuestras investigaciones, el 
parámetro desconocido 6 del conjunto © puede ser tanto escal; 
torial, Por ejemplo, si X € Ba,.», entonces ô = (a, 0”) es bidimensional, 
y el conjunto O puede ser tanto un semiplano { =œ < œ < œ, g > 0) co- 
mo cualquier parte de éste. 

La esperanza matemática y la varianza de la estadística $ = S(X) en 
función de la distribución Po serán designadas por MoS y DaS, respecti- 
vamente. 

Más adelante examinaremos algunos métodos de estimación, cada uno 
de los cuales puede interpretarse como la realización del principio de susti- 
tución de una distribución empírica. 

1, Método de momentos. Caso unidimensional. Escojamos g(x) de tal 
modo que la función 


m(0) = Mog(x1) = JeCOPa(dx) a) 


sea monótona y continua. El campo m(O) de valores m(0), 0 € O tiene 
la misma “naturaleza” que ©. Si, por ejemplo, O es un segmento del eje 
real, m(9) también será un segmento. 

Es evidente que la ecuación m(0) = 1 es unívoca y continuamente resolu- 
ble en el campo m(0) respecto a 8:0 = m” (£), y que (1) se puede escribir 
del modo equivalente en la forma 


8 = m"'(fex)P oax). B) 


Supongamos simplemente, que 


Dec) € mo 


= fewariw = 


para todas X € 2%. 
Definición 1. Se llama estimación por el método de momentos la esti- 


mación 
e= mE). 


Si Z ¢ m(©), se puede poner, conforme a (3.1) y (3.2), 
0 = mo), 
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donde Zo € m(9) es el punto de m(9) más próximo a 8. , 

No es difícil darse cuenta que esto constituye la estimación con arreglo 
al principio de sustitución. La elección de la función m(0) nos ha permitido 
expresar 6 en forma de la funcional (2). También está claro que la estima- 
ción (3) es una estadística de tipo I, así que, en virtud del teorema 3.1, 
las estimaciones conforme al método de momentos serán fuertemente con- 
ciliables. Si además, la función m es derivable en el punto 0, 

2 (x)Poldx) < co, entonces, según el teorema 3,2, la estimación con arre- 
glo al método de momentos será a.n. con coeficiente (m'(6)7 *Dog(x1). 

El método de momentos fue propuesto por C. Pearson (en forma algo 
más particular) e históricamente es el primer método regular para construir 
estimaciones. 

La propia denominación de “método de momentos” se debe al hecho 
de que su esencia consiste en igualar entre sí los momentos “teóricos” y 
empíricos (esperanzas matemáticas) de la magnitud g(x1): pues la estima- 
ción (3) no es otra cosa sino la solución de la ecuación 


E 
1 jet. (0) 


iet 


m(0) = 


También se puede añadir que en calidad de g(x) se elige con frecuencia 
la función g(x) = x o bien g(x) = x*, k > 1, así que nuestra ecuación se 
convierte en ecuación para momentos ordinarios. 

La igualdad (4) también puede considerarse como el resultado de la 
igualación del valor medio de la magnitud g(x) “en el espacio”, a su valor 
medio “en el tiempo”. 

El carácter no únivoco del método de momentos, asi como de todo 
el principio de sustitución, aquí se manifiesta sobre todo bien: pues casi 
nada limita la elección de la función g(x). 

Ejemplo 1. Supongamos que X € FP... y que æ se desconoce. Cons- 
truyamos las estimaciones conforme al método de momentos con dos fun- 
ciones elementales g(x):21(x) = x y g(x) = X°. Son válidas las igualdades 
siguientes (véase el punto 5 del $ 2): 


mio) = Magi(xı) = praa =1/% 


mao) = Ma&(x:) = Ferenldò = 2/0 
ò 


obtenemos 


á r P 1 
Resolviendo |. =X, e= > 
ndo las ecuaciones mia) = X, ma(0) = 7 
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las estimaciones según el método de momentos 


d= ya (43) aa © 


rar 


Estas dos estimaciones son estadísticas de tipo 1 y podemos describir 
sus propiedades asintóticas. A base de las igualdades (2.4) obtenemos 


Dagi(x1) = Dax: = 1/08, Daga(x1) = Dax? = 20/a*, 


En vista de que para la primera estimación, mí(a) = —1/a?, y para la se- 
gunda, mí(a) = —4/a”, a base de los teoremas 3.1, 3.2 obtenemos que am- 
bas estimaciones a* y a” son fuertemente conciliables y a.n. con 
coeficientes, respectivamente, 
ST E ES 
dd do NE iaa 

Evidentemente, conviene dar preferencia a a”, ya que su “dispersión”, 
en caso de grandes valores de n alrededor del valor verdadero de a, que 
se mide con arreglo a la varianza de la distribución límite, es menor que 
la “dispersión” para a**. 

2. Método de momentos, Caso multidimensional. De un modo comple- 
tamente análogo se examina el caso cuando 0 es un parámetro multidimen- 
sional, 

Supongamos, como antes, que k es la dimensión de 6. Elijamos la fun- 
ción vectorial g(x) = (g1(%), -.., gr(x)) de modo que la ecuación 


m0) =t, 
donde ¢ = (h, ..., tx), m(0) = (mi(0), ..., mxl0), 
m0) = Meg) = [g)P (do), 


sea unívoca y continuamente resoluble con respecto a 9 = m~ (f) en el 
campo m(0) de valores m(9), 8 € O. Admitamos simplemente, que el vector 


z- (i eo, ni Reco) 


tai ran 


pertenece al campo m(O) de todas X € Z”. 

Definición 1A. La estimación 6* = m”'(g) se llama estimación por el 
método de momentos, 

Como antes, del teorema 3.1 se deduce que tales estimaciones 9* serán 
fuertemente conciliables. 
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Para que tenga lugar 9” a.n. es necesario exigir adicionalmente que la 
función m sea derivable, [gXx)Po(dx) < «o. La afirmación acerca de la dis- 
tribución límite de 0” se obtiene fácilmente con ayuda del teorema 3.2A. 

Ejemplo 2. Examinemos en calidad de (Po) la familia de distribuciones 
normales a.e. Suponiendo g:(x) = x, g(x) = x?, obtenemos las eciacio- 
nes siguientes para el método de momentos: 


=, 0 2s 
asi +e på 


izi 


cuya solución es a 
el Dyd- e s 

isi 
Proponemos al lector, en calidad de ejercicio, hallar, basándose en el méto- 
do de momentos, las estimaciones para todas las familias paramétricas ex- 
puestas en el $ 2. 

3. Método generalizado de momentos. Es posible la siguiente generali- 
zación del método de momentos, la cual amplía considerablemente la clase 
de estimaciones antes examinada. Limitémonos simplemente al caso del 
parámetro unidimensional 9. Examinemos la función de dos variables g(x, 
6) y supongamos que para toda distribución P la ecuación 


jec% 0JPldx) = jets, 0)Potdx) (6) 


es resoluble con respecto a 0 = G(P), de modo que la última igualdad, jun- 
to con (6), se convierta en la identidad 0 = G(Po) cuando P = Pa 

Llamaremos estimación por el método generalizado de momentos, la 
estimación 


0” = G(P5). 


Es evidente que, al igual que las estimaciones por el método de momen- 
tos, éstas son estimaciones de sustitución. La investigación de las propieda- 
des de tales estimaciones es más difícil. De esto nos convenceremos en los 
párrafos sucesivos, puesto que resultará que una de las estimaciones de sus- 
titución que estudiaremos detalladamente será la estimación por el método 
generalizado de momentos. 


$ 5*. Método de distancia mínima 


El método indicado en el título, al igual que el de momentos, es la realiza- 
ción del principio de sustitución y consiste en lo siguiente. Examinemos 
cualquier funcional de dos distribuciones d(P, Q), la cual posee la propie- 
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dad consistente en que como función de Q dicha funcional alcanza su valor 
mínimo cuando Q = P y a(P, Q) > d(P, P) cuando Q # P. Vamos a consi- 
derar la magnitud d(P, Q) (o bien d(P, Q) — a(P, P)) como la “distancia” 
entre Q y P, de modo que P se pueda determinar como el valor de Q con 
el que d(P, Q) alcanza su valor mínimo. 

Supongamos ahora que X € P, P se desconoce y pertenece a la familia 
2. Designemos por (Q)z la distribución de P inmediata a la distribución 
Q en sentido de la distancia d, y supongamos que ella existe; 


Ka Q) = mín dal, O), 


así que (Q)9= Q si Q € 2 

Definición 1. Se llama estimación de la distribución P conforme al valor 
mínimo de la distancia d, la distribución P* = (Pp € Z, donde P} es, co- 
mo antes, la distribución empírica. 

Ahora bien, cuando II = P" = (P})>se minimiza d(l, P3), Si Pcoinci- 
de con el conjunto de todas las distribuciones, es evidente que P* = P} 

Supongamos ahora que P= (Ps)ace es una familia paramétrica que 
satisface la condición siguiente: 


Ao Po, % Po, cuando 0, # 02. 


En este caso la aplicación de 9->Po es biunívoca, por eso la distribución 
P € 2 permite restablecer únicamente el parámetro 0 con el que P = Pa 
Este hecho también puede expresarse de otra manera: existe la funcional 
G definida sobre P de tal modo que 0 = G(P»). 

Introduzcamos en este planteamiento la funcional G:(Q) = G((Q)5) 
que es, evidentemente, el valor de 9 € O con el que P será la distribución 
inmediata a Q en sentido de la distancia d, así que 


Gi(P») = G(Po) = 0. (i) 


Definición 2. La estimación 0* = Gı(P%) se denomina estimación del 
parámetro 0 por el valor mínimo de la distancia d. 
En otros términos, 6* es el valor de O con el que 


A(Pos Pi) = inf d(Po Pr). 


Es evidente que aquí otra vez tropezamos con el principio de sustitución. 
Esto se deduce de las definiciones y de (1). Claro está que la distancia d 
y la familia P= (Ps) deben poseer propiedades capaces de asegurar la 
mensurabilidad de la aplicación de 2” en R*, que se realiza mediante la 
funcional G,(Ps), de modo que 0” sea una variable aleatoria. 

Ahora señalemos que en el caso paramétrico, al cumplirse la condición 
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(40), la contracción del método de sustitución (véanse (3.1) y (32) y el 
método de distancia mínima proporcionan la misma clase de estimaciones. 

En efecto, ya sabemos que las estimaciones de distancia mínimas 8° son 
las estimaciones por el método de sustitución, en este caso-0” € ©. Suponga- 
mos ahora que 6” es la estimación por el método de sustitución 6° = G(P»), 
donde G(Ps) = 0, 8° € O. Determinemos la distancia d(P, Q) =|G(P) - 
— G(Q)|. Entonces, evidentemente, para 0 = 0” se alcanza 


inf d(Pa Pi) = infiG(Po) — GP»)! = infló — G(P»)] = 0. 


También se puede notar que el método de momentos es mucho más estrecho 
que el de sustitución, puesto que es evidente que no cada funcional G tal 
que G(Po) = 0, admite la representación de la forma 


GPs) = m`? (ePad). 


Volvamos a las estimaciones de distancia mínima. Está claro que se pue- 
den señalar muchas distancias “racionales” d que pueden utilizarse para 
construir las estimaciones. Podríamos, en calidad de d, tomar la distancia 


A(P, Q) = suplFr(x) = Foo) 


o bien 
A(P, Q) = [(En(x) - Fol)? dFol), 


donde Fp(x) es la función de distribución que corresponde a la distribución 
P. Aquí serán estimaciones 0* por la distancia mínima los valores de 0 con 
los que se alcanza, respectivamente, 


inf suplFr.C) — FiO), 15) 
y 2 
it [Eno = oar = int 3) (Fre - 72) - 


En algunos problemas (compárese esto con [48)) se utilizan las llamadas 
estimaciones conforme al valor mínimo de x? (ji-cuadrado). Son las estima- 
ciones con arreglo al valor mínimo de la distancia 


> 
de, 0) = ye PL, 


donde An ..., A es la partición de R (o bien de R” si x; son m- 
r 


dimensionales) en 7 < œ intervalos, asi que (J A: = R. Ahora bien, la 
Pf] 
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estimación 9” conforme al valor mínimo de x? es el valor de 0 con el que 
se minimiza 

SY PA) — 

"a PA) 


ran 


a/n? (Peas) — vo? 

E 2 nPo(A) e 9 
Aquí »; = nP3(A;) es el número de observaciones x; que adquirieron los 
valores del intervalo A; La estadística en el segundo miembro (3) es la esta- 
distica x? que ya conocemos, de aquí precisamente procede la denomina» 
ción de dicha estimación. 

Más adelante veremos que existe tal funcional G, 9 = G(Ps) con la que 
las estimaciones según el principio de sustitución, llamadas estimaciones 
de verosimilitud máxima, serán las mejores en cierto sentido. En virtud 
de esta circunstancia, las estimaciones examinadas en este párrafo no tie- 
nen, hablando en general, mucha aplicación y por eso no merece la pena 
detenerse más en ellas. 


$ 6. Método de verosimilitud máxima 


Otra vez supongamos que Pes una familia paramétrica (Poloco. En lo 
sucesivo, con arreglo a esta familia admitiremos, por doquier donde sea 
necesario, que está cumplida la condición 


(40) Po, 4 Po, cuando 0, 5% 02, 


asi como la condición siguiente, que llamaremos condición (44). 
(4,): en el espacio de fase ( Z By) existe una medida o-finita p tal 
que todas las distribuciones Ps € Ptienen, respecto a esta medida, la densi- 


dad ful) = -FF o), así que 
P(B) = [Anona 


En este caso se dice que la medida domina las distribuciones Pa 

Todas las familias de distribuciones examinadas en el $ 2 satisfacen, 
evidentemente, las condiciones (40) y (44). Para ciertas distribuciones, en 
calidad de y es necesario adoptar la medida de Lebesgue (distribuciones 
absolutamente continuas), y para otras, la medida de cálculo (distribucio- 
nes discretas). La medida de cálculo y se define así: p(B) = k, donde k 
es el número de puntos con coordenadas de valores enteros pertenecientes 
a B. 

A las primeras pertenecen las distribuciones normal ®x,e, lognormal 
Leò, las distribuciones T y B, la distribución uniforme, la distribución 
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de Cauchy y las distribuciones de Student y de Fisher, y a las segundas, 
las distribuciones de Bernoulli y Poisson, así como las distribuciones dege- 
neradas en cero y polinomiales. La forma de densidades fo(x) de estas distri- 
buciones se da en el $ 2. En el caso discreto (cuando y es la medida de 
cálculo), la densidad f(x) coincide con la probabilidad Pa((x)) del suceso 
{xı = x}; aquí {x} significa un conjunto compuesto por un solo punto 
x. También cabe señalar que, por ejemplo, la distribución normal Pa. y 
la distribución de Poisson son recíprocamente singulares. En vez de la medi- 
da de Lebesgue y la medida de cálculo también podríamos tomar otras 
medidas, por ejemplo, la distribución normal Po, y la distribución de Pois- 
son IM, respectivamente. Sin embargo, en este caso las densidades fs(x) se- 
rán, evidentemente, otras. Proponemos que las halle el propio lector. Los 
ejemplos citados más arriba se referían al caso Z'= Ro Z= R", m > 1. 
En un espacio de fase arbitrario (2; Ba»), la naturaleza de la medida y 
puede ser más compleja. 

La introducción de la condición (A, es cómoda, ante todo, por el hecho 
de que posteriormente nos permitirá examinar, desde un punto de vista 
único, dos tipos de distribuciones que son las más importantes en las aplica- 
ciones: absolutamente continuas y discretas. Desde el punto de vista de 
la condición (4,), entre dichas distribuciones no hay ninguna diferencia 
cualitativa. Además, deja de ser importante la dimensión del espacio de 
fase X 

Convengamos en escribir 


Sœ) = Ex) cd. lu] 
si existe un conjunto A, (4) = 0 tal que f(x) = g(x) para todos x ¢ A. 
Es evidente que f(x) = g(x) es. lu] si y sólo si 
JU) - g0Yutdx) = 0. 
Lema 1. Sean f y g dos densidades de probabilidad con respecto a la 
medida y. Entonces 
$09 In fdutax) > Y/O) In gCou(da), (0 
si estas dos integrales son finitas. El signo de igualdad sólo es posible en 
el caso de f = g cd. lul. 
Aquí se vino al acuerdo de que las integrales en (1) sobre el conjunto 
A, en el que f(x) = 0, equivalen a cero para cualquier g(x). 
Demostración. Es necesario demostrar que 


fr m $09 acto <o. 


Como In(1 + x) < x para todos x > —1, y el signo de igualdad sólo es 
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posible cuando x = 0, entonces 
E) h ( Es E 2) g 1 
o PU + aae. 
y el signo de igualdad aquí sólo es posible cuando f(x) = g(x). Por eso 


f 100 In LO dx) < fro O > 1) mað = 
j 


T 
- feconcaso : frman =0 (2) 


Si la relación f = g c.d. [p] no tiene lugar, es evidente que el signo de desi- 
gualdad en (2) será estricto. < 

Examinemos ahora la familia Z= (PsJoco que satisface las condicio- 
nes (40), (44) y la “distancia” d(Pa Q) entre la distribución arbitraria Q 
y la distribución Ps € 2 


A(Pa Q) = — [Infe(x)Q(ax). 6) 
Definamos la funcional G(Q) como el valor de 6 con el que se alcanza 
min d(Pa Q) = d(Poo» Q). 


Del lema 1 y la condición (4o) se deduce que 
- [fodnfonldx) > — [fos In Sold), 
d(Pa Pos) > d(Po,, Po.) 
cuando 0 > 00. Esto significa que 
G(Pa,) = 00. (4) 


Definición 1. Llámase estimación de máxima verosimilitud (e.m.) el 
valor de 0” = G(P5), o sea, el valor de 9 con el que se alcanza 


máx fm JolP(as) = máx L 2 Saxo. 0 


En lo sucesivo, el símbolo - sobre la designación de la estimación corres- 
ponderá siempre a la ev.m. 

De la definición y de (4) se deduce que la emm. es una estimación de 
sustitución. Esta también puede ser considerada como la estimación con 
arreglo al valor mínimo de la distancia (3). Esta distancia se halla íntima- 
mente ligada a la distancia de Kullback—Leibler entre las distribuciones, 
la cual desempeña un papel especial en la estadística matemática y será 
examinada más tarde. 


7—8030 
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En la definición 1, la familia (Po) se supone tal que ĝ* sea una magni- 
tud aleatoria *. 

En vista de que el valor máximo de cierta función puede alcanzarse 
en varios puntos, la ev.m., hablando en general, no es única. El ejemplo 
respectivo será expuesto un poco más tarde. 

La denominación de dicha estimación está relacionada con la siguiente 
interpretación importante de la expresión 


Em fad = mT 446%, 


presente en (5). Para facilitar la exposición examinemos primero el caso 
discreto cuando p es la medida de cálculo. Entonces II fo(x) es la 
isi 


probabilidad de que aparezca el resultado X = (Xa ..., Xa). Por lo tanto, 
elegimos, en calidad de ĝ*, el valor del parámetro que maximiza esta proba- 
bilidad (pues las funciones (0) > O y In (8) alcanzan los valores extremos 
en los mismos puntos). 

Una interpretación análoga también tiene lugar en el caso general. En 
virtud de la independencia de x, tenemos, para los conjuntos 
B=BiX...X Bn Bi € Da 


PAX € B) = foei) ria foula). (6) 
Recordemos que xi, a distinción de los elementos de la muestra xı, designan 


las variables aleatorias, y el vector (xi, ..., Xa) se designa a través de x. 
Supongamos que y” es el producto directo múltiplo de n de las medidas 


p, así que p"(dx) = TI uídxi). Entonces (6) significa que 
Ta 
” 
PAX EB) = | TI Soda) 
E 


y, por consiguiente, la función fe(x) = TI fo(xi) es la densidad de distribu- 
a 
ción del vector aleatorio X en 2” respecto a la medida p”, 
| foodu" (dx) = 1. 


ES 


Ahora bien, TI] fo(x)w"(dx) puede interpretarse (análogamente al caso 


© O sea, $" realiza la aplicación medible de (2*, BZ) en (R*, 9%). 
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discreto) como la probabilidad de que la muestra adquiera el valor del para- 

lelepípedo formado por la intersección de las “franjas” (x, x: + dxi), y la 

estimación de la máxima verosimilitud maximiza en 0 esta probabilidad. 
La función 


PO = TI Sox) 


ran 


como función de 0 se llama función de verosimilitud, y la función 
LX 0) = In JA) = El, 0), 


donde t(x, 6) = In fe(x), se denomina función logarítmica de verosimilitud, 

Esas mismas denominaciones de las funciones f y L también se utiliza- 
rán en el caso cuando como argumento, en vez de X, se halle el vector 
variable x. Ahora bien, la función de verosimilitud fo(x) es la función sobre 
2" x O que, para cada 0 € O, constituye la densidad de la probabilidad 
respecto a la medida g”, así que la densidad fex) en 2 también es la fun- 
ción de verosimilitud para el caso n = 1. 

Por otro lado, fo(X), por ejemplo, en el caso °= R, puede considerarse 
como la función de verosimilitud de una muestra de volumen 1 en el caso 
multidimensional, cuando 2= R” = R", 

Cabe señalar que la ev.m. no depende absolutamente de la elección de 
la medida 4, puesto que, al sustituir p por cualquier medida equivalente 
dy” 


41 la función de verosimilitud fe(x) cambiará sólo en el factor daf &) 


que no depende de 8. 

Las propiedades asintóticas de la e.v.m. podrían haber sido investigadas 
en el mismo camino que utilizamos al estudiar las estimaciones por el méto- 
do de momentos. Precisamente allí hemos aprovechado el hecho de que 
las estimaciones conforme al método de momentos son estadísticas de tipo 
I. Esto nos permitió determinar directamente su conciliabilidad fuerte y 
su normalidad asintótica. Al cumplirse ciertas condiciones para fp(x), las 
em.m. serán estadísticas de tipo 11, y esto también permite (véanse los teore- 
mas de los $$ 1.5, 1.8) determinar su conciliabilidad y su normalidad asintó- 
tica. No obstante, a nosotros nos será más cómodo estudiar directamente 
las propiedades de las e.v.d. (véanse los $$ 23—27), ya que esto permite 
realizar la investigación de un modo más económico y completo. 

Hallemos las funciones de verosimilitud y las ev.m. para algunas distri- 
buciones expuestas en el $ 2. En cuanto a las funciones de verosimilitud 
suaves, la manera más fácil de hallar su valor máximo consiste en igualar 
a cero las primeras derivadas. 


7 
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Ejemplo 1. La distribución normal de $.,,.» en Z'= R tiene una densi- 
dad de 
t Esa 
paot) = O, <a > 


Suponiendo, en este caso, que 0 = (a, 0”), obtenemos 


s= en *rreof- Ya - ar). 
F 


LX, D=- $ in 2r = n In a Dar. 


En vista de que In es una función monótona, como ya hemos señalado, 
Jy L alcanzan su valor máximo con los mismos valores de 6. Tenemos 


ôL 1 > 
Ta ¿Ln a), 


th - - 2 a). 


iei 


Resolviendo, para el punto del valor máximo, el sistema de ecuaciones 


obtenemos 


Er =S=} Jya- 


Es fácil comprobar que en este punto realmente se alcanza el valor máximo 
de L. 


Ejemplo 2. Examinemos la distribución I con densidad 
A 
e- Igor 
Yalx) em” e x>0,a>0, 
en el caso cuando se conoce el parámetro A Tenemos 


L(X, a) = nina — ninTQ) + A- DÈ nx - a Exa 
a fea 
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Ejemplo 3. Tenemos la distribución binomial Bp. Aquí, para X € Bp 
tenemos que Px; = 1) = p, PO; = 0) = 1 - p, 

SAX) = pu -pn 
donde v es el número de apariciones de 1 entre los elementos X, ---, Xn- 
Por lo tanto, 


L(X, p) = »Inp + (n - ») In(l ~ p), 


ôL » 
dp A 

Proponemos al lector que procure, en forma de ejercicio, hallar las ev.m. 
para todas las familias paramétricas expuestas en el $ 2, y que las compare 
con las estimaciones según el método de momentos. 

Ahora citaremos dos ejemplos de un tipo, algo diferente, cuando la fun- 
ción fo no es suave en Ó y cuando no son vigentes los métodos de búsqueda 
de la ev.m., relacionados con la derivación. 

Ejemplo 4. Sea X € Us,1 +o (distribución uniforme sobre [0, 1 + 6). 
Aquí 


(1, x€([(06,1+0, 
O= do, 419, 1+0, 


(1 0 <x<xm< 1 +0, 
NEJA la de lo contrario, 


donde xa) < ... < Xan) es la serie variacional, En este ejemplo, la estima- 
ción de verosimilitud máxima no es única. En efecto, f(X) = 1 (o sea, 
al valor máximo) para todos los valores de O que satisfagan las relaciones 
Xm = 1 < 0 <x. Como Xin) — Xo) < 1, tales O existen siempre. Podemos 
tomar, en particular, Ó" = xq) o bien Ô’ = Xm — 1 

Ejemplo 5. Sea X € Use Aquí 


0, xe 10,0, 
so = fo TON 


a= f07” si xi € [0, 6] para todos i = 1, 2, ..., n. 
Sex) E de lo contrario. 


Para obtener la forma de función f»(X) como función de 0, escribamos 
la condición x: € [0, 8), ¿= 1, ..., n, en la forma equivalente 9 > máx 
Xi = Xm. Así pues, fo(X) = 0 cuando 8 € [0, Xm), y f(X) = 07" cuando 
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0 € (Xy, 00). El gráfico de esta función se muestra en la fig. 1. Aquí, al 
igual que en el ejemplo precedente, la función fs es discontinua. El valor 
máximo de fe se alcanza en el punto Ê = Xq. 

Análogamente el lector puede hallar la ev.m. para un parámetro bidi- 
mensional desconocido (a, 8) cuando X € Ua,s 


JA 


Fig. 1. 


Si fo(x) es ilimitada y los puntos xs, en los que f(x) = <, dependen 
de 0, el método de verosimilitud máxima pierde en sumo grado su significa- 
do (aquí hemos venido al acuerdo de que fo(xs) = œ si fa(x)—+ cuando 
xixe o cuando xtxo). Esto se puede entender con más facilidad en el ejem- 
plo del parámetro de desplazamiento cuando fo(x) = f(x ~ 0), f(x) > 0, 
JO) = æ. Entonces fo(X) = œ cuando 0 = Xi, ..., O = Xn y, por consi- 
guiente, Ó* adquiere, por lo menos, n valores que coinciden con los elemen- 
tos de la muestra. La esencia de tal efecto consiste en que en este caso 
los “saltos” de fə(X) no dan la posibilidad de juzgar acerca de la posición 
del máximo “verdadero” de fy(X), determinado por la influencia de toda 
la muestra (compárese esto con los $$ 24, 25). Para obtener tal parámetro 
sería necesario “amortiguar” de algún modo los saltos de fo(X). 

Las estimaciones de verosimilitud máxima poseen la siguiente propie- 
dad importante de invarianción con respecto a la sustitución del parámetro. 

Teorema 1. Supongamos que 8(0) es la función que realiza la aplicación 
biunivoca del conjunto O sobre el conjunto B. Entonces, si 0° es la ey.m. 
segun la muestra X del parámetro 0, en este caso 8" = B(6") será la ev.m. 
según la muestra X del parámetro 8 = $(0) para la familia paramétrica 
(Qs = Poo lse» donde 0(8) es la función inversa a B(0). 

Omitimos la demostración del teorema, debido a su evidencia. 

Debemos señalar que ya hemos utilizado implícitamente el teorema 1 
en el ejemplo 1, donde en busca de la ev.m para o? hemos hallado el valor 
máximo de L por o y luego hemos tomado (3°)* 

Otro ejemplo de uso de este teorema es la determinación de la ev m. 
en el caso de X € Lao, O sea, en el caso cuando la distribución de x; 
es lognormal: In x; € ®a,o*. Para tales x; la media a y la varianza d? son 
iguales respectivamente (véase el $ 2): 


4 7. COMPARACIÓN DE ESTIMACIONES 103 


a= expla + 0/23, de =a(e" — 


Si designemos por á* y (d?)' las exv.m. para a y d”, en virtud de la propiedad 
de invariación obtenemos, para la función (a, d?) = £(a, o°) (véase el ejem- 
plo 1), 


r-o pl, Y 


13] isi 
El cálculo aproximado de las e.v.m. en situaciones más complicadas se 
realiza en el $ 26. 
Para resumir este párrafo haremos la observación siguiente, Ya hemos dicho que la ev.m, 
es una estimación de sustitución. No obstante, dicha ev.m. también puede considerarse, en 
ciertas condiciones, como estimación del método generalizado de momentos. En efecto, su- 


pongamos que la función /a(x) es derivable respecto a 0 y que es legítima la derivación respecto 
a esta variable bajo el signo integral en la igualdad 


(ndx) = 1 


Entonces 
- ( #0 ji 
0s froma f VAE] So)uldx) 
minor 


3 l L Aaudx) = Mdl’ (xs 0. 
a 


Ahora bien, si en (4.6) ponemos g(x, 0) = 1 (x, 6), para la estimación por el método generaliza- 
do de momentos obtenemos la ecuación 


fro arras = [10 Peas) = 0 
o bien, que es lo mismo, 
Lx 0 = 0. 
Esta es la ecuación para la ev.m. 


§ 7. Acerca de la comparación de las estimaciones 


Hemos visto que existen muchos enfoques naturales de obtención de las 
estimaciones. Cabe preguntar: ¿cómo comparar entre sí diferentes estima- 
ciones y qué estimaciones deben preferirse a otras? Destaquemos dos enfo- 
ques de comparación de las estimaciones: estándar (medio cuadrático o 
típico) y asintótico. 

El primero de ellos se basa en la comparación de las desviaciones están- 
dar. El segundo enfoque es aplicable solamente a las muestras de gran volu- 
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men, puesto que se funda en la comparación de las “dispersiones” de las 
distribuciones para (9* — 0)/n en caso de grandes n. Como base para tal 
comparación sirve generalmente la forma de distribuciones límite para 
0" — 9) Un cuando n=% (si éstas existen). Los teoremas límite respectivos 
nos dan las condiciones en las que la distribución (8° — 0)Vn para grandes 
n puede ser aproximada con ayuda de las distribuciones límite men- 
cionadas. 

En este párrafo se supone que las estimaciones se comparan en caso 
de una distribución desconocida cualquiera de la muestra P, pero 
registrada. 

1. Enfoque estándar, Caso unidimensional. Este enfoque se utiliza para 
examinar las estimaciones con arreglo a la muestra X de cualquier volumen 
registrado (no obligatoriamente grande). Consiste en la comparación de las 
desviaciones típicas M(S* — 0). 

Regla 1. Con arreglo al enfoque estándar, consideraremos que la estima- 
ción 0 es mejor que la 0% si 


M(9 - 8}? < M(0 — 6). 


Está ampliamente difundida la idea de que el error estándar es la carac- 
terística numérica más conveniente de la exactitud de una estimación, aun- 
que desde muchos puntos de vista esta circunstancia es discutible: pues se 
puede comparar, digamos, las magnitudes M0” — 6] que también describen 
los valores medios de las desviaciones de 0” de 8. 

La ventaja indudable de las características M(9* — 0)? consiste en el he- 
cho de que (9* — 9)” es la función analítica de la diferencia 9* — 6. Esto 
hace más cómodos muchos estudios y permite aproximar, como veremos 
más tarde, los valores de MÍ(0* — 8) para las funciones suaves f. 

A la par con la desviación estándar para la descripción de las propieda- 
des de las estimaciones también se utiliza la magnitud de desplazamiento. 

Definición 1. Se llama desplazamiento de la estimación 8° la magnitud 


b= M0" - 0. 


La estimación 0”, para la cual b = 0, se denomina no desplazada. 
La desviación estándar está relacionada con el desplazamiento y la va- 
rianza de la estimación por medio de la igualdad 


M(9” - 07 = DO” + b, 
así que para las estimaciones no desplazadas, la desviación estándar coinci- 
de con la varianza. 
El carácter de no desplazamiento propiamente dicho es, evidentemente, 
una propiedad deseable de las estimaciones, puesto que significa que en 
la sucesión dad de estimaciones, el valor medio de éstas coincidirá con 
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el valor verdadero del parámetro. Si falta dicha propiedad, la estimación 
se llama desplazada. 

Ejemplo 1. Examinemos las tres estimaciones siguientes para el valor 
medio 0 = Mx; de la distribución P: 


=p, 0 = 070, (0) 


donde ¿* es la mediana muestral; Xœ), k = 1, ..., n, los valores de la serie 
variacional, así que $* = Xen + 1y/2 sin es impar, y $* = À (az + Xuz 0) 


si n es par (para n = 1, 2 todas las tres estimaciones coinciden). Todas las 
estimaciones son no desplazadas si la distribución P, de la que ha sido 
extraida la muestra, es simétrica con respecto a Q(P((-00, 
0 — 1)) = P((0 + £, œ)) para cualquier £ > 0). Esto se deduce del hecho de 
que la distribución de todas las tres estimaciones también será simétrica 
respecto a 0. Para X, la afirmación sobre el no desplazamiento de MX = 9 
es evidente incluso sin la suposición acerca de la simetría. 

Calculemos las desviaciones estándar de las estimaciones (2). Para sim- 
plificar la exposición nos limitaremos al caso de P = Uo., 7 = 3, para el 
cual las estimaciones (2) pasarán a 


OREA %=xa 03 = 10730., 
Tenemos 


1 
Dx, = je = 1/2P dx = 1/12, M(6 — 0? = DX = Dx/3 = 1/36. 


Luego, en virtud de la definición de la mediana (7 es impar) {¢}* < x} = 
= (Fix) > 1/2) y, por lo tanto 


PE <x) = RO >= Y POR = K. 6) 
kedro 
Para n = 3, 
, 
PFR) =1= P(N <x) = PO), 
PGR) = 2) = 3P — Fx). 
La probabilidad P(¢" € (u, u + du)) se compone de las probabilidades de 


sucesos que tienen la forma (xy €(u, u + du)) {X2 < u) (xs > u). Como 
en total son posibles 6 de estas combinaciones, P(}* e(u, u + du) = 
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= Gu) FLIA — F(u))du y, por consiguiente, $” tiene una densidad igual 
a (esto también resulta de (3) 
OREA — Fl), 
donde F(u) = [ S(Jdt = P(x; < u). En el caso de P = Uo,, esta densidad 


será igual a 6x(l — x) cuando x €l0, 1], asi que 
i 


ME’ = joto — nas = 6(y ) >, 


ki nee VE e AM AE 
DF" = MY MEP 2 


Nos queda hallar la varianza de la estimación 


nseto, 


Razonando análogamente a la precedente, no es dificil convencerse de que 
la probabilidad P(xu) E(u, u + du), xa) Elv, v + dv)), cuando u < v, es 
igual a 6/f()/(w) (E(v) — F(v))du dv. Por eso para P = Uo,: 


y? f ( utv E 
MG) = ( LE) so — udu dv. 


El valor de esta integral es igual a 11/40 (el lector puede realizar los cálculos 
individualmente), por lo tanto, 


DO; = MI — (MAY = PL Ea y 


Así pues, la estimación 03 resulta la mejor. Para otros valores de n y 
otras distribuciones P, la situación puede ser otra. Veremos, por ejemplo, 
que cuando P = a.o , la mejor estimación para œ será 0j = 3. 
Ejemplo 2. Estimaciones no desplazadas de la varianza. Examinemos 
la estimación para la varianza 
2 Èe - 


s=} Da- 


asi como la estimación 
stsl} Dyo- Mu? =} Dp? (Mx? — 23Mxi 


(ambas según el principio de sustitución) en el caso cuando se conoce Mx1. 
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La estimación SÎ no está, evidentemente, desplazada. Al mismo tiempo 
sl J w- =} Do- 3 s Mu = 
=L D o- Mx? Mx)? = S$- G- Mri} < St, 
Ahora bien, la estimación S? está desplazada, 
M$? = Dxı - D3 = ( -1)Dx. 


Esta relación muestra que también podemos examinar, en caso de Mx, des- 
conocida, la estimación de la varianza igual a 
S —— O ?, MS e Dx 
n-1 n-1 

Pasemos ahora al enfoque asintótico del problema de comparación de 
las estimaciones. En este caso la regla para la preferencia de las estimacio- 
nes se elige univocamente. 


2. Enfoque asintótico. Caso unidimensional. Supongamos que se han 
dado dos estimaciones 8i y 03 tales que 


(6 -oyn eo 2-25 eQ a) 


o 


donde Q es cierta ley de distribución límite, la misma que para 0j y 03, 
y 0>o01. Entonces, para grandes valores de n, las distribuciones 
(07 = 0)Vñ/0, i = 1, 2 serán próximas a Q, e indudablemente que la “dis- 
persión” de 63 alrededor de 9 será mayor que la “dispersión” de 0j y debe- 
mos preferir 0%. 

Ahora bien, la esencia del enfoque asintótico consiste en la compara- 
ción de las distribuciones límites de las estimaciones. 

Ya hemos visto y también nos convenceremos de ello ulteriormente, que 
muchas estimaciones aparecidas de un modo natural, icluyendo las óptimas 
(de lo cual hablaremos posteriormente), son asintóticamente normales, o 
sea, para ellas es válida (4) cuando Q = %o,1. Esto nos permite enunciar 
la siguiente regla natural de comparación de las estimaciones a.n. 

Supongamos que se dan dos estimaciones a.n. 9 y 03 con los coeficien- 
tes of y aż, respectivamente. 

Regla 2. La estimación 9 debe ser mejor que 93 si oi < 03. 

En lo sucesivo, al utilizar estas y otras reglas, a la par con el término 
“mejor” también haremos uso, donde sea necesario, de las palabras “no 
peor”, “peor”, “no mejor” que corresponderán a los signos de desigualdad 
<S, >, > entre o? y od (o bien entre M(6] — 0) y M(93 — 0) en (1). Si 


108 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


dl = dí, diremos que estas estimaciones son asintóticamente equivalentes. 
El acuerdo propuesto es natural, y en las definiciones ulteriores no lo me 
cionaremos cada vez y sólo nos limitaremos a difinir la relación “mejor” 
o las relaciones semejantes a ésta. 

Es preciso señalar que en la clase de estimaciones a.n., la minimalidad 
de la dispersión de 0* quiere decir que la magnitud 


Jim PUP- 8]< un) 


será máxima para cada u. Esta circunstancia hace indiscutible la regla indi- 
cada para la comparación de las estimaciones a.n. 

El enfoque asintótico, a pesar de su naturalidad, tiene una desventaja 
considerable: sólo es aplicable a las estimaciones de gran volumen y única- 
mente en la clase de estimaciones a.n. 

Los dos enfoques señalados son, en cierto sentido, próximos uno a otro: 
en ambos casos el hecho se reduce a la comparación de las varianzas © 
de las magnitudes próximas a ellas. Por supuesto que la magnitud 0//n 
en (4), cuando Q = ®o,ọ puede distinguirse considerablemente de 
M(0" — 0). Sin embargo, los ejemplos que ilustran este hecho (proponemos 
al lector que los construya él mismo) tienen, por lo común, carácter arti- 
ficial. 

La exposición ulterior de este capítulo está relacionada, en mucho, con 
la construcción de las estimaciones, óptimas para cada uno de los dos enfo- 
ques introducidos. 

Ejemplo 3. Sea X € F.,1 En el ejemplo 1 del $ 4 hemos mostrado 
que ambas estimaciones 


aisy ois (27 2)” 


son estimaciones conforme al método de momentos. Además, ai también 
es ev.m. Luego hemos determinado que ambas estimaciones son asintótica- 


mente naturales, con coeficientes a? y 3 a?, respectivamente, y por lo tanto, 
3 y 


la estimación ad es mejor que la «3 desde el punto de vista del enfoque 
asintótico. Ese mismo resultado, para n > 2, se obtiene cuando se trata 
del enfoque estándar. 

Ahora citaremos un ejemplo que muestra que según las propiedades 
de la distribución, una misma estimación puede ser mejor o peor que algu- 
na otra estimación registrada, 

Ejemplo 4. Examinemos el problema de la estimación 9 = Mx; si se 
sabe que X € P y que la distribución P es simétrica respecto al punto 
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0 (compárese con el ejemplo 1). En este caso la mediana de la distribución 
y coincide con 6. Examinemos también dos estimaciones para 9 (ambas 
según el principio de sustitución): la media 9 = X y la mediana muestral 
0 = $". Supongamos, para precisas, que n es impar. Del corolario 2.2.1, 
cuando k = (n + 1)/2, se deduce que si la función de distribución F es 
continuamente derivable en el punto 9 = f, entonces 


E DNA = zo ES o JO = FO) 


Con otras palabras, en este caso ¿* es la estimación a.n. con coeficiente 
À = 1/48). 

Por otro lado, la estimación a.n. de X tiene por coeficiente oł = Dx;. 
Ahora bien, si 


8% 1 
fa RO <> 


debemos preferir la estimación X. Si el signo de desigualdad es inverso, en- 
tonces debemos preferir $*. Cabe señalar que los números | (x — ¿)%dF(x) 
YJ) son características de distribución muy poco relaciónadas entre sí. 
Examinemos un importante caso particular, cuando estimamos el pará- 

1 
Van * 


metro œ por la muestra X € Poor. En este caso fla) = (3) 


así que 
4-5 e>e=0t. 


Esto significa que en esta situación, la estadística X es mejor que la ¿”. 
Sin embargo, como hemos visto, no es difícil construir el ejemplo de la 
distribución para la cual será preferible la estadística $. 

El ejemplo de la mediana también es muy aleccionador en otro sentido. 
El mismo muestra que la velocidad de disminución del grado de dispersión 
de $* — $ puede ser cualquiera. Para cerciorarse de esto, basta con recurrir 
a la observaicón 2.2.1. En condiciones de dicha observación, como factor 
normalizador que asegura la convergencia de ¿* — $ hacia la distribución 
límite sirve la magnitud n'/9”, donde y es un número no negativo cualquie- 
ra (véase (2.12)). El factor V7 corresponde solamente a las distribuciones 
suaves. 

Ahora presentaremos un experimento real con la muestra de volumen 
n= 101 de la población normal Ho, y veremos ° cómo los valores de X 


° La muestra X ha sido construida con ayuda de los números aleatorios tomados de 
las tablas (8] (se han utilizado los primeros 101 números en la página — ). 
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y Y aproximan el O cuando n = 11, 21, 51, 101. Los datos obtenidos se 
ofrecen en la tabla siguiente: 


a u a si 10 
x -0,283 -0.254 -0,148  -0072 
t -0,291 -0,292 0078 -0,044 


En este ejemplo, la estimación £* para n = 51, 101 se comporta mejor, 
lo cual es resultado de la desviación aleatoria. Para convencerse de la venta- 
ja de X sería necesario realizar muchos experimentos de este tipo. 

Veamos ahora que aspecto tienen los dos enfoques (anteriormente enun- 
ciados) de la comparación de las estimaciones en el caso multidimensional, 
cuando ĝ es el vector (01, ..., Ox). 

3. Enfoques estándar y asintótico en el caso multidimensional. Como 
antes, utilizaremos el enfoque asintótico sólo en la clase de estimaciones 
a.n. En este caso el hecho se reduce por completo a la comparación de 
las distribuciones normales multidimensionales (distribuciones límites para 
(0° — 8) Vn) que se describen totalmente por medio de la matriz de segundos 
momentos o° (véase, por ejemplo, el teorema 3.2A). 

Si se examina el enfoque estándar de la comparación de las distribucio- 
nes exactas de 0”, también todo se reduce a la posibilidad de comparar 
dos distribuciones en R*, basándose en el conocimiento de los momentos 
(0* — 0) de segundo orden. Ahora bien, en ambos casos debemos saber 
comparar, según el “grado de dispersión”, las matrices de los momentos 
de segundo orden, 

Examinemos los métodos de comparación más naturales. Supongamos 
que Qı y Qz son dos distribuciones aleatorias en R*. Designemos por $i 
y è cualesquiera vectores aleatorios que poseen estas distribuciones: E € 
EQ. 

Definición 2. Diremos que la dispersión estándar de la distribución Qr 
alrededor del punto œ € R* no es mayor que la dispersión Qz si para todo 
vector a = (01, ..., dx), 


M(t: — a, a? < M(E — a, a}, (5) 


è 
donde (x, a) = Sxia: es el producto escalar. 
A 


Diremos que la dispersión para Qı es menor que para Qz si en (5) tiene 
lugar el signo de desigualdad estricta al menos para un a. 

Si œ = Mı = ME», la igualdad (5) significa que por cualquier dirección 
de a la varianza de la distribución Qı (o sea, la varianza de la proyección 
de E, sobre a) no supera la magnitud igual para Qz. 
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Si d? = }d{P} es la matriz de segundos momentos de Q, /= 1, 2, enton- 
ces, abriendo paréntesis en (5) para œ = 0, obtenemos, para todos ai, ..., 
ak 


A £ 
È diPaa < Y daa. 16) 
1 ajar 


En el lenguaje de las matrices designaremos esta relación por 
d<d, (m 


que significa la definición no negativa de la matriz di — dl. 

Ahora bien, la dispersión estándar de Q, alrededor del cero no supera 
tal dispersión para Qz si y sólo si para las matrices de los momentos de 
segundo orden tienen lugar las desigualdades (6) y (7). 

Las reglas de preferencia de las estimaciones en el caso multidimensio- 
nal pueden enunciarse del modo si 

Enfoque estándar: la estimación 6j es mejor que la 03 si la dispersión 
estándar de 0 alrededor del punto 9 es menor que la misma magnitud para 


i. 

Si dfes la matriz de segundos momentos 0 — 8, la afirmación que dice 
que “la estimación Øj es mejor que la 03” significa que di < di. 

Enfoque asintótico; la estimación 0] es mejor que la 03 si la dispersión 
estándar cerca del cero de la distribución límite para (0; — 8)VA es menor 
que la misma magnitud para (03 — 9)Vn. 

En otros términos, si (9; — 0)Vn € $o..t, entonces la afirmación de 
que “la estimación 8j es mejor que la 93” quiere decir que o? < o3. 

Se puede mostrar que si 0] y 63 son dos estimaciones a.n. y 0] es mejor 
que 03, entonces 

Jim, PC0í — OVA € B) > Jim, P((83 — 8)/n € B) (8) 


para cualquier elipsoide central "B. 

Vemos que en ambos casos la comparación de las estimaciones se reduce 
al establecimiento de las igualdades para las matrices de los momentos de 
segundo orden. Cierta diferencia consiste en que en el primer caso los mo- 
mentos no son obligatoriamente centrales. 

Establezcamos ahora ciertas relaciones equivalentes a (6), (7). 


r 
> Para abreviar convengamos en llamar elipsoide en R* el dominio $) dyay < c, y 
x tTa 
elipse, la superficie J; dyxxy = c. 


t Ter 


uz CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


Pongamos 
v(0") = MIO" — 0) Ve — Oy 


y designemos por B+ el conjunto de todas las matrices V = |vy] definidas 
no negativamente, Si Jdy] es la matriz de segundos momentos 0” — 6, enton- 
ces, evidentemente, v(8°) = Dvydy. 

Lema 1. d? <d} si y sólo si v(0i) < v(63) para cualesquier V € Ba. 

Demostración. En una dirección la afirmación es evidente, ya que la 
matriz V, = aae B+, y para tal matriz, 

va(07) = MI — 0)Va(07— 07 = Zaad? 
(véase (6)). 

Para demostrar la afirmación en dirección contraria, señalemos que el 
orden parcial basado en las desigualdades (5) es invariante respecto a los 
ejes de revolución de las coordenadas. Es decir, si Ces la matriz de transfor- 
mación ortogonal y i es mejor que 63 para el parámetro 0, entonces jC 
es mejor que 03C para el parámetro ÔC. Esto se deduce de las igualdades 


OIC — 0C, a) = (0i 0)G a) = (6 — 0, ac”) 


y de la definición 2. 
Supongamos ahora que di < dl, o sea, 


Edi aa, < LaPa. ©) 


Esto quiere decir que v(01) < v(93) para las matrices V que tienen la forma 
Va = kuajl y, por lo tanto, también para las matrices diagonales Vajas € De, 
puesto que estas últimas son representables en forma de la suma de k matri- 
ces que tienen la forma Və Supongamos ahora que V es una matriz arbitra- 
ría de B+ y C es una transformación ortogonal tal que CTVC = Vains. 
Entonces 


v(i) = MØ; — OVO — 0)” = MIO — 0)CVsiC "(0 — 0). 


De las dos observaciones hechas anteriormente y de (9) se deduce que el 
segundo miembro de esta igualdad es menor que 


MO} — 0)CVeiasC"(03 — 0)” = MÍO — 0,103 — 0)7 = v(03). <a 


Existe también otro método de comparar la dispersión (véase (37) que, 
sin embargo, supone que ambas distribuciones Q, y Q2 no están degenera- 
das en R“ y tienen una media nula. En este caso las matrices de los segun- 
dos momentos centrales d? quedarán definidas positivamente y para ellas 
existen las inversas Ar = (d~ '. 

Supongamos que d? es la matriz de segundos momentos de la distribu- 
ción Q, y que A =(d?)7?. 
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Dei 
elipsoide 


ición 3. Se llama elipsoide de dispersión de la distribución Q el 


tA <k+2 


que entre todos los elipsoides se destaca univocamente por su propiedad 
siguiente: si se examina la distribución uniforme U (o sea, la distribución 
en R* con densidad constante dentro del elipsoide y con densidad nula 
fuera de éste), en este elipsoide, los primeros y segundos momentos de Q 
y de U coinciden (véase [25], p.333). 

Lema 2. Supongamos que las matrices dí, 1 = 1,2, no han sido degene- 
radas. La dispersión estándar de Q, alrededor del cero no es mayor que 
la dispersión de Qz si y sólo si el elipsoide de dispersión para Q; se encuen- 
tra en el elipsoide para Q2. 

Demostración. Supongamos que la elipse 14117 = 1 se encuentra en el 
interior de (4247 = 1. Como es sabido, existe la transformación lineal no 
degenerada / = uL que transfiere la elipse 14117 = 1 a la esfera unitaria 
Si, y la elipse 14217 = 1, a la elipse Sz con los ejes principales en dirección 
de los ejes de coordenadas. Esto quiere decir que 41 = LA¡L” = £ (matriz 
unidad), Az = LA2L” = diag(M, .. ., A$, 0 < AÌ < 1, j = 1, „K. Como 
Ar! = E, Az! = diagd?, ..., A£?), la elipse 147 17 = 1 será una inver- 
sión respecto a la esfera unitaria Sı de la elipse S2 y, por consiguiente, se 
encontrará en Sı. Como Â7' = (17)”'42L”!, entonces, efectuando la 
transformación “inversa” u =L", obtenemos que la elipse 147” = 
= tdît = 1 se halla fuera de 14; 7 = tdł}t" = 1. Evidentemente, la misma 
relación es válida para las elipses 117 = c y tdi17 = c. Pero esto significa 
que la igualdad tdłt” = c conduce a 1017 = c < tdir”, La afirmación en 
dirección contraria se muestra exactamente de la misma manera. < 

Ahora es importante señalar que, a distinción del caso unidimensional, 
la comparación de las dispersiones con ayuda de las matrices de segundos 
momentos sólo establece el orden parcial en el conjunto de todas las distri- 


buciones. Por ejemplo, las matrices dı = (o 5 yd = G $ no son 


ni mejor ni peor una que otra, ya que para el vector a = (1, 0), (6) es válida, 
y para el vector a = (0, 1), la desigualdad será inversa. Esto constituye una 
incomodidad considerable del orden introducido, aunque éste, como tal, 
no suscita dudas. 

Podemos hacer muchas estimaciones (o muchas distribuciones) bien or- 
denadas, si comparamos, digamos, MÍ0* — 0%, donde |-| es la norma euclí- 
dea en RÝ, así que 


k 
MP" - P| =M (0 0%. (10) 
a 


B—8030 
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“Tal método de ordenación ya es discutible, puesto que en distintas circuns- 
tancias, la precisión en diversas disecciones puede apreciarse de modo dife- 
rente. Para considerar de algún modo esta circunstancia, se puede, en 
calidad de generalización, tener en cuenta la medida de exactitud 


v(9") = MIO” — 0) VE — 07, 


donde V es la matriz definida no negativamente (el caso (10) corresponde 
a V= E). 

Del lema 1 se deduce que si la dispersión de ĝi alrededor de ô es menor 
que la dispersión de 93, entonces v(8j) < v(03). El caso inverso, hablando 
en general, es incorrecto: el cumplimiento de la desigualdad v(0i) < v(03) 
para una matriz cualquiera Y (el orden completo propuesto más arriba se 
basa en una matriz registrada) no significa aún que la dispersión de 0 alre- 
dedor de 0 es menor que la dispersión de 63. 

Pasemos ahora a examinar un importante caso paraméfrico, cuando se 
estiman los parámetros desconocidos de las distribuciones de familias para- 
métricas. 


$ 8. Comparación de las estimaciones en el caso paramétrico, 
Estimaciones eficientes 


En el párrafo precedente hemos destacado dos enfoques (estándar y asintó- 
tico) de la comparación de la calidad de las estimaciones. Introduzcamos 
ahora algunos conceptos relacionados con estos enfoques en el caso para- 
métrico, cuando la distribución de la muestra X pertenece a cierta familia 
2= (Po). Al igual que antes, con los símbolos Mo y De designamos la 
esperanza matemática y la varianza de la distribución Po. 

1. Caso unidimensional. Recordemos que de acuerdo con el enfoque 
estándar debemos decir qu 0 es mejor que 03 si 


at(0) = Ma(0 — 0)? < Ma(03 — 0? = di(0). 0) 

Pero en el caso paramétrico, di(0), 1 = 1, 2, son las funciones de 8 y 
debemos decir “Aj es mejor que 83 en el punto 0” si di(8) < d:(0). 

Análogamente sucede al utilizar el enfoque asintótico cuando se compa- 

ran las estimaciones a.n. para grandes volúmenes de la muestra z, confron- 

tando sus distribuciones límites. La estimación 0f se considera mejor que 

la 63 en el punto 0, si en las relaciones 
O- OWn E Pon 1=1,2 (0) 


es justa 01(0) < 02(8)”. 


* Ya hemos señalado que en la amplia clase de casos dA8) = n”tof + o(n”*). Sin embar- 
go, esto no se deduce de las definiciones de los números dX0) y 0R9). 
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Ahora bien, en ambos casos el problema de comparación de las estima- 
ciones conduce al asunto de comparación de las funciones, digamos, di(8), 
8 = O. Este conjunto no está ordenado, y en la clase de todas las estimacio- 
nes es posible introducir un orden parcial del modo siguiente. 

Regla 1. La estimación 0] es mejor que la 03 si d,(8) < d2(0) (o, respecti- 
vamente, 0,(0) < 02(0)) para todos 8 € O y al menos para un ô se cumple 
la desigualdad estricta d1(0) < dx(6). 

Si la estimación 0” es tal que para ella existe la estimación 0] que es 
mejor que 0”, en estos casos se dice que 9” es una estimación inadmisible. 

Expongamos primeramente el enfoque estándar en el caso unidimensio- 
nal y examinemos las posibilidades aquí existentes de comparar las estima- 
ciones. Conviene señalar, ante todo, que desde el punto de vista de la 
definición citada no existe, hablando en general, la mejor estimación. O 
sea, no existe una estimación 0” tal que para toda otra estimación 01 sea 
válida la desigualdad d(0) <d,(6), donde d;(6) está definida en (1), y ad(0) 
corresponde a 0”. 

En efecto, si se toma la estimación ĝi = 9, = const € O, entonces 
di(0) =M s(0í — 0)” = O cuando 0 = 0, y para la mejor estimación 0* (si 
tal estimación existiera) se cumplirá d*(9,) = Mo,(9* — 01)? = 0. Como 0; 
es arbitrario, d*(0) = 0. Pero esto es posible únicamente en el caso “degene- 
rado”, cuando las observaciones determinan unívocamente el valor del pa- 
rámetro 0. Por ejemplo, cuando X € lo o bien X € Us.o+1 y O = Íl, 
2.0.) 

Ahora bien, la envolvente inferior de todas las funciones d*(9) es igual 
a cero, pero en el caso “no degenerado” esta función no se realiza para 
ninguna función 0”. 

El problema puede ser más interesante si se buscan las mejores estima- 
ciones 0” en unas u otras subclases de estimaciones que se eligen de un 
modo suficientemente racional. Uno de los métodos posibles de destacar 
tales subclases consiste en registrar el desplazamiento b(0). 

Definición 1. La estimación 0 € K se denomina eficiente en la clase 
K si para cualquier otra estimación 0* € k Me(0 — 0)? < Mo(0” — 0)? cuan- 
do todos 0 € O. 

La clase Ko de las estimaciones no desplazadas desempeña un papel 
especial, o sea, la clase de las estimaciones para las cuales b(0) = 0. 

Las estimaciones eficientes en la clase Ko = (0":Mol 61 de estima- 
ciones no desplazadas se llaman simplemente eficientes. De suerte que las 
estimaciones eficientes no son sino estimaciones no desplazadas con varian- 
za mínima. 

Como ya hemos señalado, la propiedad de carácter no desplazado es, 
como tal, indudablemente deseable, ya que significa la falta del error siste- 
mático al utilizar la estimación. 

La cuestión acerca de la existencia de las estimaciones con el desplaza- 


ge 
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miento dado b(8) (en particular, de las estimaciones no desplazadas) se re- 
duce a la resolubilidad de la ecuación integral con respecto a g(x): 


| g)Po(Xe dx) = 0 + bO), (0) 
donde g(X) = 6"; el primer miembro de esta ecuación es Mel”. 
Si está cumplida la condición (4,) y Ja) = TI f(x) es la función 
iz 
de verosimilitud, la ecuación toma la forma 
[ EVA (dx) = 0 + b0). (4) 
Cabe señalar que la solución (4) para b(0) dada no siempre existe ni mucho 
menos y, en particular, no para todas las familas (Po) existen las estimacio» 
nes no desplazadas del parámetro 0. Examinemos, por ejemplo, el esquema 
de Bernoulli con un parámetro desconocido p (la probabilidad del caso 
es {xı = 1)) y supongamos que nos hace falta estimar el parámetro 


0 = (p), donde p es una función dada. Entonces la ecuación (4) para la 
estimación no desplazada tiene la forma 


E gaste) = 0 


o bien, que es lo mismo, 


n 

PA Pros plp), (5) 

donde G(k) = 3) g(x) y Ar es el conjunto de puntos x cuyas k coordena- 
Aa 


das son iguales a 1. Pero el primer miembro de (5) es el polinomio de p 
de grado n. Esto significa que la ecuación (5) sólo puede ser resuelta si 
(p) es un polinomio de grado no mayor de n. 

Examinemos ahora la clase K» de estimaciones con desplazamiento 
registrado b(0) y supongamos que existe una estimación que es eficiente 
en Ko. 

Teorema 1. La estimación eficiente en K, es única con una exactitud 
de hasta los valores sobre el conjunto A C 2” para el cual Ps(4) = 0 
cuando todos 6 € O. 

Demostración. Sean 0%, 0 dos estimaciones eficientes en Kp. Desig- 
nemos 


D=D00% A/=6/-0, ELA 


d+ a Y, (M-Y Atat 
2 2 2 


Ao + Ar 
2 


Como 


(6) 
=0" 8, Ao- Ar = b" — 6, 
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entonces 
Mo(0" - 07 + 4 Mo(60" — 01)? = D + b?(0). 1) 


Pero 0* € Ko y, por lo tanto, Ma(0" — 6)? > D + b*(6). En este caso, de 
(0) se deduce que 


Mo(0 — 01) < 0, 


Oi =0 05”. a 

El análisis realizado del problema de comparación de las estimaciones 
se refería al enfoque estándar. A este último también se refiere, en realidad, 
lo siguiente 

Definición 2. La estimación 6} € K se denomina asintóticamente eficien- 
te (ac) en K si cuando n~o, para toda otra estimación 0° de K y para 
cada 0 € O, 


está relacionada estrechamente. Aquí, como antes, el problema consiste en 
la comparación de las funciones ø(8) que caracterizan la distribución nor- 
mal límite, pero la cuestión en general se simplifica un poco. Esto se debe, 
ante todo, a que la comparación se realiza solamente en la clase de estima- 
ciones a.n., que en lo sucesivo la designaremos por Kẹ. Podemos contraer 
un poco esta clase Ke sin empobrecerla considerablemente. Así pues, exa- 
minaremos la clase Ko,2 C Ka de las estimaciones a.n. 6° que poseen la 
propiedad de que para ellas la convergencia 


(0 — OA E doao 
ocurre junto con los dos primeros momentos: 
Mo(0* — 0n — 0, Ma(0" — On — (8). (9) 


Señalemos que la primera de estas dos relaciones se obtiene fácilmente de 


> Es válida la siguiente afirmación que generaliza, en cierto sentido, el teorema 1. Si 
des eficiente en ko y la estimación 8° es arbitraria en k», de modo que h = D:08/D" < 1, 
entonces el coeficiente de correlación (65, 0") entre las estimaciones 03 y 8° es igual a 


els, 9) = VA. 


El lector puede realizar individualmente la demostración, después de convencerse de que 
cuando Q(05, 0°) »* VA y al elegir correspondiente a, la estimación 


0 = (l — 0)0 + a" € Ko 
satisfará la desigualdad D»0i < Da65 que contradice la eficacia de 63 
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la segunda con ayuda del teorema de continuidad para los momentos 
($1.5). 

La contracción de Ka hasta la clase Ks,2 empobrece poco la primera 
de estas clases por dos causas. En primer lugar, las estimaciones a.n. en 
las que (9) no se cumple, prácticamente no existen (hemos señalado que 
para esto son necesarias, por regla general, construcciones artificiales). En 
segundo lugar, para 9” € K, conforme al lema de Fatou, 


lim inf Men(9* — 0}? > 05(0) 


(se trata de las integrales de las funciones no negativas), así que 
Mon(0* — 0)?, para grandes valores de n puede distinguirse de o°(8) única- 
mente hacia el lado de los valores más grandes. Pero es poco probable que 
las estimaciones con tales propiedades puedan competir con las estimacio- 
nes para las cuales (9) ha sido cumplida. 

Ahora bien, cuando se trata del enfoque asintótico, en calidad de clase 
de estimaciones a.n., en la cual se realiza la comparación, podemos conside- 
rar la clase Ko,2. Esta será más cómoda para nosotros. 

Sea K cierta clase de estimaciones, tal que K C Ke,2. Entonces la si- 
guiente definición será equivalente a la definición 2. 

Definición 3. La estimación 03 € K se llama asintóticamente eficiente 
en K, si para cualquier otra estimación 0* €K 


(0) < (0) (10) 
cuando todos 6 € ©, donde 0*(0) y a1(6) son los coeficientes de dispersión 
de 0” y 0i, respectivamente. 


La equivalencia de las definiciones se deduce del hecho de que para 
Koa 


Ms(0" — 0? = 40. (1 + r.(0)), rr(0) > O cuando n => œ. 


En este caso la relación (8), que significa que 
Me(9i — 67 < Ma(0" — MPO + rO), ra(0) — 0, 

para cualquier 0” €K es, evidentemente, equivalente a la desigualdad 
(10). a 

En el enfoque asintótico, cierta simplificación del problema de compa- 
ración (anteriormente recordada) consiste en que aquí comparamos tan só- 
lo las varianzas de las leyes del límite. Aquí desaparece la importancia del 
desplazamiento b(0) de las estimaciones, puesto que en la clase Ks.2, en 
virtud de (9) se cumple la relación b(8) = o(1/Vn) que significa “casi la 
falta de desplazamiento” de las estimaciones o la “despreciabilidad asintóti- 
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ca” del desplazamiento desde el punto de vista de las relaciones (2). 
Análogamente al teorema 1 puede ser obtenido 
El teorema 2. Sea K C Ka,2. Entonces, si 91 y 03 son dos estimaciones 
ae. en K, tales que y (i + 03) € K, éstas coinciden asintóticamente, o sea, 
Vai — 03) z 0, Mova — 03> 0. 


Demostración. Basta determinar la segunda relación, ya que la primera 
se deduce de ella. Sea 


Mun = Mon0i — 6)”, Ar = 0} — 0, 0 12%, 12 
Entonces, en virtud de (6) obtenemos 
Men(9" — 0) +] Men(0y— 03% =(Mi,n + Ma,n)/2. a) 


Pero 9” € K y, por consiguiente, después de pasar al límite, en la última 
igualdad obtenemos, en virtud de la eficacia asintótica de 6j, 


lím Men(0 — 037 < 0. < 
n20 


Las consideraciones expuestas anteriormente contenían sólo una de las 
vías posibles de separar las estimaciones (en nuestro caso, las estimaciones 
eficientes) que, siguiendo varios razonamientos naturales, han de preferirse 
a otras. No obstante, son posibles, desde luego, también otros enfoques 
(recuérdese que teníamos que comparar los elementos no ordenados, o sea, 
las funciones d(8) o 0(0)). Puesto que, hablando en general, no existen esti- 
maciones con valores mínimos posibles de d(8) para cada 0, entonces se 
pueden comparar, digamos, los valores medios [d(M)g(0)dt, donde 


ali) > 0, | alt) dr = 1, o los valores máximos máx d(0). Esto son los méto- 


dos de reglamentación de los conjuntos de todas las estimaciones. 

Más tarde llamaremos bayesiano el primero de estos dos métodos, y 
minimax, el segundo. Las estimaciones óptimas bayesianas y minimax serán 
examinadas en el $ 11, y las estimaciones eficientes, en los párrafos ulte- 
riores. 

El problema de elección de las estimaciones será examinado más detalla- 
damente en el capítulo 5. 

2. Caso multidimensional. Examinemos ahora el caso cuando 6 y 8° 
son vectores de R*, Aquí, el problema de comparación de las estimaciones 
es más difícil. El hecho es que en el caso multidimensional teníamos que 
introducir un orden parcial ya para comparar las estimaciones cuando 0 
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ha sido registrado. Para comparar las estimaciones en todo el conjunto ©, 
al igual que en el caso unidimensional, también es necesario introducir un 
orden parcial, pero ya “en otra dirección” puesto que la comparación se 
basa en la desviación estándar, que es una función de dos variables: 0 y 
del vector a, sobre el cual se proyecta la desviación 0" — 0). 

Las mejores estimaciones en “ambas direcciones” constituyen precisa- 
mente el objeto de las definiciones siguientes. 

Definición 4. La estimación 65 es eficiente en la clase K si para cualquier 
estimación 0° de K la dispersión estándar de 6” alrededor de 6 para todos 
0€ O no es menor que la dispersión de 65. 

Esta definición es equivalente a la siguiente. 

La estimación vectorial 05 del parámetro 0 es eficiente en K si para cual- 
quier vector a la estimación aò = (0%, a) es la estimación eficiente del pará- 
metro escalar a = (0, a) en la clase de estimaciones a” = (0°, a), 0° €K, 
o sea, para todos ô € ©, a€ R*, 0° €K, 


Mo(0 — 8, a)? < Ma(0” — 0, a}. (2) 


Como ya hemos visto, esta desigualdad se escribe de un modo equiva- 
lente en la forma dá(0) < d*(6) o bien 


Da aa < Zayaa, 
br ba 


para todos 0€ ©, a€R*, donde d*(6) = fay(8)] y d3(0) = laf'(0y son las 
matrices de segundos momentos 0* — 6 y 85 — 6, respectivamente. 

Las estimaciones eficientes en la clase Ko de las estimaciones no despla- 
zadas se llaman simplemente eficientes. 

En vista de que la definición (12) de la eficacia se construye a base 
de la utilización del caso unidimensional, estonces, mediante el teorema 
1 no es dificil establecer que la estimación eficiente en la clase K, de estima- 
ciones, con un desplazamiento b(0) = MO" — O registrado, es la única, 

La definición de las estimaciones a.e. en el caso multidimensional es 
análoga a las definiciones 2 y 3. 

Definición 5. La estimación vectorial ø; del parámetro 0 es asintótica- 
mente eficiente en K si para cualquier vector a la estimación (fj, a) es la 
estimación a.e. del parámetro escalar œ = (0, a) en la clase de estimaciones 
a = (0°, a), 0" €K. 

En otros términos (véase el § 7), la dispersión estándar de ła distribución 
límite (8i — 6)Vn, para la estimación a.e. es mínima. Esto, a su vez, significa 
que para cualesquiera 0° € K, a € R*, 0 € O se cumple o1(0) < 0*(6), o bien 


FoP Oua < Zoulojaa, 
z F 
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donde o?(8) = joyl®)l, sH(8) = lof)(0)| son, respectivamente, las matrices 

de segundos momentos de las distribuciones límite (9* — 8)V7 y (03 — 8)Va. 

Del párrafo precedente se puede sacar la conclusión de que el conjunto 

de estimaciones en el caso multidimensional, para 9 registrado, puede ser 

ordenado si la calidad de la estimación se mide en cantidad (durante el 
enfoque estándar) 

v(6”) = Mo(0” — 0)V(0" — 9)” = u(8”, 0), (13) 


donde Y es la matriz definida no negativamente. La cantidad análoga rela- 
cionada con la matriz de segundos momentos de la distribución normal 
límite, también se puede examinar durante el enfoque asintótico en la clase 
Ke. 

Continuando el avance por este camino, es posible ordenar bien el con- 
junto de todas las estimaciones incluso en todo el conjunto O. A saber, 
se pueden comparar los valores medios 


fee, Dada a(0>0, jalar 


o los valores máximos máx v(0”, r) de las cantidades v(9” 0) definidas 
16 


en (13). 

Si resulta que la estimación que es la mejor en tal enfoque, continúa 
siendo la mejor para cualquier matriz Y definida no negativamente, esto 
significará, en virtud del lema 7.1, que esta estimación también será la me- 
jor desde el punto de vista del orden parcial establecido en el $ 7 (o sea, 
la desviación estándar mediada será la mínima en cualquier dirección). 

Para construir las estimaciones óptimas en sentido de las definiciones 
examinadas en este párrafo, necesitaremos los conceptos y las propiedades 
de las esperanzas matemáticas condicionales y de las estadísticas sufi- 
cientes. 


$ 9. Esperanzas matemáticas condicionales 


En este párrafo recordaremos la definición de las esperanzas matemáticas 
condicionales (e.m.c) y sus propiedades principales. Véase una exposición 
más completa en el suplemento IJI, así como en [11], (381, [30), [61] y [84]. 
1, Definición de la em... Sean E y y dos variables aleatorias dadas en 
el espacio probabilístico (Q, $, P). 
La esperanza matemática condicional M(£/B) de la variable aleatoria 
E respecto al suceso B P(B) > 0, se define por la igualdad 


M(E B) 


M(/B) = Ha > (0) 
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donde M(E; B) = | sap = MíEla), la = Is(w) es una variable aleatoria 


$ 
igual al indicador del conjunto B. 

Admitamos que £ y y son independientes, B = {4 = x) y P(B) > 0. En- 
tonces, para cualquier función medible p(x, y) conforme a (1), 


= x) + Me Musa - Mel, Diexi - 
Mielë, n/n =) = e A Pae ME 0) 
La última igualdad es válida, ya que las variables aleatorias p(£, x) e 


Tin = xy como funciones de E y y, respectivamente, son independientes y, 
por consiguiente, 


Motos Mig = 01 = Molt, X)MIin = x) = Mol, XPO = x). 


Las relaciones (2) muestran que el concepto de e.m.c. también puede 
conservar su significado en el caso cuando la probabilidad de la condición 
es igual a 0; pues de por sí la igualdad 

M[el, 1/7 = x] = Ma(é, x) 
para £ y y independientes se presenta natural, y con la suposición de 
P(n = x) > 0 no está relacionada de ningún modo. 

Supongamos que Y es la o-álgebra de $. Vamos a definir ahora el con- 
cepto de e.m.c. de la variable aleatoria E con respecto a Y que designaremos 
por M(E/A). Primero daremos la definición del caso “discreto”, pero de 
modo que se generalice fácilmente. 

Llamamos “discreto” el caso cuando la o-álgebra de Y está formada 
(generada) no más que por una sucesión numerable de los sucesos disjuntos 
Ap An ...; U As =Q, P(4;) > 0. Este hecho se escribe en forma de 
Y = oli, Az, ...) y significa que como elementos de Y sirven todas las 
uniones posibles de los conjuntos Ai, Az, ..- 

Con ayuda de la variable aleatoria E y el sistema de sucesos (41, Az, 


...) construiremos una nueva variable aleatoria = É(w) del modo si- 
guiente: 


E= y mao) = MELO cuando w € Ap k= 1, 2, ... 
Con otras palabras, 
¿- ME Ap) 
E Me 


donde Z es el indicador del conjunto A. 
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Definición 1. La variable aleatoria É se llama e.m.c. de ¿ con respecto 
a la o-álgebra de % y se designa por M(E/9). 

Ahora bien, a distinción de las esperanzas matemáticas ordinarias, la 
em.c. M(£/M) es una variable aleatoria. En nuestro caso esta variable es 
constante en los conjuntos Ax y equivale, en estos conjuntos, al promedio 
de ¿en Ax. Si £ y Y son independientes (o sea, P(E € B; Ax) = PĖẸ € 
€ BJP(Ax)), entonces es evidente que M(£ Ax) = MEP(42) y É = ME. 

Sin embargo, si A = $, entonces f también es “discreta”, ẹ es constante 
en los conjuntos Æx y, por lo tanto, É = £. Señalemos las dos propiedades 
principales siguientes de la e.m.c.: 

1) É es medible con respecto a Y. 

2) Para cualquier suceso A € A 


M(E A) = MẸ A). 


La primera propiedad es evidente. La segunda se deduce del hecho de 
que todo suceso A €M es representable en la forma A = UA y, por 
K 


consiguiente, 


M(É A) SEMÈ An) = Ev PA 


EME An) = M(E A). 


Esta propiedad es bastante clara: tras promediar la variable E respecto al 
conjunto A se obtiene el mismo resultado que al promediar la magnitud 
É ya promediada respecto a Aj. 

Lema 1. Las propiedades 1) y 2) definen univocamente la e.m.c. y son 
equivalentes a la definición 1. 

Demostración. En una dirección la afirmación del lema ya está demos- 
trada. Ahora supongamos que se han cumplido las condiciones 1 y 2. La 
mensurabilidad de É con respecto a Y quiere decir que É es constante en 
los conjuntos Ax. Designemos el valor de É sobre Az a través de yk. Como 
Ax € %, de la propiedad 2 se deduce que 


M(É Ax) = P(A) = M(E Ax) 


y, por lo tanto, para w € Ax 


> - MẸ A) 
Esn PAD T 
Ahora podemos dar la definición general de la emc 
Definición 2. Supongamos que ¿ es una variable aleatoria en el espacio 
probabilístico (Q, 5, P) y que Y C $ es la o-subálgebra de f. Llámase espe- 
ranza matemática condicional de Ẹ respecto a Y la variable aleatoria É desig- 
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nada por M(£/9), la cual posee las dos propiedades siguientes: 

1) Ê es medible respecto a Y. 

2) Para cualquier A € U es válida M(É A) = M(E A). 

En esta definición la variable aleatoria £ puede ser tanto escalar como 
vectorial. 

En seguida surgen las preguntas: ¿existe tal variable É? y ¿es única ésta? 
Hemos visto que en el caso “discreto” la respuesta a estas preguntas es 
positiva. En el caso general es válido 


Teorema 1. Sí M|ẹ| es finita, entonces la función Ẹ = M(£/U) siempre 
existe en la definición 2 y es única con una exactitud de hasta los valores 
en el conjunto de probabilidad cero. 


Demostración. Primero supongamos que ¿ es escalar, £ > 0. Entonces 
la función del conjunto 


QUA) = [EdP = ME A), AEA, 
å 


será la medida en (9, Y), que es absolutamente continua respecto a P, pues- 
to que P(A) = 0 conduce a Q(A) = 0. Por consiguiente, según el teorema 
de Radón—Nikodym ([11}, Suplemento 3) existe la función M-medible 
Ê = M(£/A) única, con una exactitud de hasta los valores en el conjunto 
de medida cero, tal que 


Qa) = féar. 


En el caso general pongamos = ¢* —£7, E* = máx(0, E > 0, 
E = máx(0, —#) > 0, 


Ebe, 


donde É£* es la e.m.c. para £*. Esto demuestra la existencia de la e.m.c,, 
ya que É satisfará las condiciónes 1) y 2) de la definición 2. De aquí también 
resulta la unicidad, ya que la suposición acerca de la no unicidad de É signi- 
ficará la no unicidad de É* o de É”. La demostración para Ẹ vectoriales 
se reduce al caso unidimensional, ya que las propiedades 1) y 2) pertene- 
cerán a las coordenadas de É cuya existencia y unicidad ya han sido demo- 
stradas. < 

La esencia de la demostración citada es bastante clara: pues según la 
condición 2, para cualquier A € A se da M(É A) = [É4P, o sea, se dan 


á 
los valores de las integrales de É de todos los conjuntos A € A. Es evidente 
que esto debe definir unívocamente la función A-medible £ con una exacti- 
tud de hasta los valores en el conjunto de medida 0. 
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El sentido de M(£/X) queda el mismo y, en términos generales, consti- 
tuye el promedio de E en los elementos “indivisibles” de Y 

Si A = $, entonces, evidentemente, É = Ẹ satisface las propiedades 1) 
y 2) y, por lo tanto, M(E/3) = £ 

Definición 3. Supongamos que £ y y son las variables aleatorias en (Q, 
3, P) y que A = ofn) es la o-álgebra engendrada por la variable aleatoria 
n. Entonces M(¿/4) también se llama esperanza matemática condicional 
de la variable E-respecto a y. 

A veces, para simplificar la exposición, en vez de M(£/o(m)) escribiremos 
M(¿/m), lo cual no conduce a equivocaciones. 

Como, por definición, M(¿/n) es una variable o(n)-medible aleatoria, 
esto significa (véase [11), p.65) que existe una función medible g(x) para 
la cual 

M(/n) = 87). 6) 


Por analogía con el caso discreto, la magnitud g(x) aquí puede ser interpre- 
tada como el resultado de la mediación de ¿ en el conjunto [y = x}. Recor- 
demos que en el caso discreto g(x) = M(£/y = x)). 

Definición 4. Si = lc es el indicador del conjunto C €f, entonces 
M(lc/A) se denominará probabilidad condicional P(C/A) del suceso C 
respecto a Al. Si A = o(y), entonces hablaremos de la probabilidad condicio- 
nal P(C/n) del suceso C respecto a y. 

Propiedades de la e.m.c. 

1) La e.m<. posee propiedades de esperanzas matemáticas ordinarias 
(véase [11], p.75), con la única diferencia de que las mismas se cumplen 
casi con seguridad (con probabilidad 1): 

la) M(c¿/%) = cM(E/U )si c = const, 

1b) M(é1 + £1/9) = M(E/U + M(£2)/90), 

lc) si Es < z c.s, entonces M(E1/U) < M(E2/2 ). 

2) Es válida la desigualdad del tipo de Chébishev: si £ es real, £>0, 
entonces para cualquier x > 0, 


PE > xa) < MEM. 


Lo mismo que las igualdades del punto 1, tal relación entre las em.c. 
se cumple casi con seguridad. Este mismo acuerdo será válido posterios- 
mente para todas las relaciones entre las em.e 

3) Si las o-álgebras de Uy o(¥) son independientes, entonces 
M/A) = ME. 

De aquí se deduce, en particular, que si £ y y son independientes, enton- 
ces M(£/n) = ME. Si la o-álgebra de % es trivial, entonces, evidentemente, 
también obtenemos M(¢/%) = Mê. 
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4) Para las e.m.c. son ciertos los teoremas de convergencia, válidos para 
las esperanzas matemáticas ordinarias, por ejemplo, el teorema de conver- 
gencia monótona: si Enf E, En > 0, entonces M(tn/A)1M(¿/A) c.s. 

5) Si y es escalar y medible respecto a Y, M|¿|< «o, MI£,|< «o, entonces 


M(ni/4) = »M(E/M. 


Con otras palabras, las variables aleatorias Y-medibles se comportan, 
respecto a la operación de e.m.e., como constantes (compararlo con la pro- 
piedad 1a). 

6) Para las e.m.c. quedan válidas todas las desigualdades principales 
para las esperanzas matemáticas ordinarias, en particular, la desigualdad 
de Cauchy — Buniakovski 


MEL) < IM(E/U)ME/012 


y la desigualdad de Jensen: si MJ£] < œ, entonces para cualquier función 
g(x) convexa hacia abajo, 


gME/A y) < MEENU). 


7) Fórmula de la probabilidad completa (propiedad 2 de la definición 
2 cuando A = f): 


ME = MM(E/Y). 


8) Promediación sucesiva (generalización de la propiedad 7): si 
Y CU C $, entonces 


M(E/U) = M(M(E/A, /U). 


En el Suplemento II se puede hallar la demostración de estas pro- 
piedades. 

Es evidente que las propiedades 1), 3), — 5), 7) y 8) son válidas tanto 
para las variables aleatorias E escalares como para las vectoriales, Destaca- 
remos especialmente la siguiente propiedad de las ema. 

9) Es sabido que la función (œ) = M(¢ — a)” alcanza su valor mínimo 
cuando a = Mẹ (véase, por ejemplo, [11)). Esa misma propiedad también 
es válida para la em.c: cuando a(w) = M(Ẹ/% ) se alcanza el valor mínimo 
Mí — a(u))? entre todas las funciones a(w) U-medibles. 

En efecto, M(Ẹ — a(w))? = MM — a(w))?/% pero alw) se comporta 
como constante respecto a la operación M(-/U) (véase la propiedad 5), 
así que 


M(E — a()/U) = ME — ME/A)/U) + MMGA) — a) ?/ U) 


y el valor mínimo de esta expresión se alcanza cuando a(w) = M(£/YA). Esta 
propiedad puede considerarse como definición de la e.m.c. equivalente a 
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la definición 2. Debido a ella, M(£/A) puede interpretarse como la “proyec- 
ción” de E sobre Y. 

La propiedad 9) admite la siguiente generalización para el caso multidi- 
mensional, cuando ¢ = (E1, ..., Es) es un vector aleatorio en R*. 

9A) Sea V = |vy| una matriz arbitraria, definida no negativamente y 
de dimensión s X s, a € R*, 


ta) =(E- a) Vig - a” 


(en particular, para V = E obtenemos ¿(a) = |¿ — a[?). Entonces, en la fun- 
ción a(u) = M(E/41) se alcanza el valor mínimo mín Mita) para la clase 


A de todas las funciones U-medibles. 

La demostración de este hecho transcurre igual que en el caso unidimen- 
sional. Designemos œ = M(£/U). Entonces Mi(a) = MM(¿(a)/A), 
M(s(a/U) = MUE — aJV(E— ay = ME JUE 7/0) + 

+ Mí(a: — a)V(E— 0)7/U) + ME — a)V(a — a) 7/U) + (4) 
+ Mía — a)U(a — a)7/9U). 


Como a — a es el vector A-medible, entonces, según la propiedad 5), 


Mía — a)JV(E— 3/4) = (a — a) ME — a)7/4) = 0, 
M(E — a) Vla — a)7/4) = [M((E — a)/ A) Vla — a)” = 0. 


En vista de que el último sumando en (4) no es negativo y equivale a cero 
cuando a = a, la afirmación queda demostrada. < 


$ 10. Distribuciones condicionales 


A la par con las e.m.c., las distribuciones condicionales se pueden examinar 
respecto a las o-subálgebras y respecto a las variables aleatorias. En este 
párrafo estudiaremos solamente las distribuciones condicionales respecto 
a las variables aleatorias. 

Sean £ y y dos variables aleatorias en (Q, $, P) con valores en R* y 
RŽ, respectivamente, y sea Y* la o-álgebra de los conjuntos de Borel de Re 

Definición 1. La función P(B/y) de dos variables y € R*, BEB' se 
llama distribución condicional de E, a condición de que y = y, si 

1) Para cada B P(B/y) es la probabilidad condicional P(¢ € B/n) del 
suceso [E € B) respecto a y, o sea, P(B/y) es una función de Borel de 
J, tal que para cualquier A € B*, 


M(P(B/m; n € A) = frenea € dy) =P(EE€B n € A). 


2) Para cada y, P(B/y) es ia distribución de las probabilidades sobre B. 
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A veces escribiremos la función P(B/y) de una “forma más descodi- 
ficada”: 


P(B/y) = P(Ẹ € B/n = y). 


Sabemos que para cada B € B? existe una función de Borel ga(y) tal 
que ga(n) = P( € B/n). Ahora bien, poniendo P(B/y) = gn(»), satisfare- 
mos la condición 1) de la definición. Sin embargo, en este caso la condición 
2) no se deduce de ningún modo de las propiedades de la e.m.c. y de ningu- 
na manera se ve obligada a ser cumplida: pues la probabilidad condicional 
P(E € B/n) está definida para cada B, con una exactitud de hasta los valores 
en el conjunto Ng de medida cero (ya que existen muchas variantes de 
em.c.) y este conjunto puede ser propio para cada B. Por eso, si la unión 


N= U Na no tiene probabilidad nula, puede resultar que, por ejemplo, 
Bew’ 
las iguaidades 


P(E € Bi U Ba/m) = P(E € Bi/n) + P( € Ba/m) 


(aditividad de la probabilidad) a la vez para todos Bi, Bz disjuntos de 9” 
no se cumplen ni siquiera para un solo w de N, o sea, en el w-conjunto 
de N de una probabilidad positiva, la función ga(y) no será una distribu- 
ción como la función B. 

No obstante, en nuestro caso, cuando E es una variable aleatoria con 
valores en R* y con o-álgebra de los conjuntos de Borel B*, gn(n) = P(E 
€B/), siempre se puede elegir de tal modo que ga(y) sea una distribución 
condicional (véase [38], 130). 

Como era de esperar, las distribuciones condicionales poseen la propie- 
dad natural consistente en que las e.m.c. se expresan en forma de integrales 
según las distribuciones condicionales, 


Teorema 1. Para toda función medible g(x) que aplica R' en R, tal que 
MIg(£)|<o, es válida la igualdad 


MEGa) = je(x)Ptax/n). a 


Demostración. Es suficiente examinar el caso cuando g(x) > 0. Si 
g(x) = Ia(x) es el indicador del conjunto A, entonces la fórmula (1) es evi- 
dentemente cierta, o sea, es cierta para cualquier función simple gn(x) (es 
decir, para una función que adopte un número finito de valores). Nos queda 
tomar la sucesión gnTg y utilizar la monotonía de ambos miembros en (1) 
y la propiedad 4) del $ 9. < 

En los problemas reales, para calcular las distribuciones condicionales, 
a menudo es posible valerse de la siguiente regla simple, que, para eviden- 
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ciar, podemos escribirla de la forma siguiente: 


= y =PEEB n € dy) 
P(E € B/n = y) Han a Q) 

Por supuesto que ambas condiciones de la definición 1 serán satisfechas 
formalmente. 

Si £ y y tienen densidad de distribución, dicha igualdad adquirirá un 
sentido exacto. 

Definición 2. Supongamos que la distribución condicional P(8/y), para 
cada y es absolutamente continua respecto a cierta medida pen R* 


PE € B/n = y) = pumas). 


Entonces la densidad f(x/y) se denomina densidad condicional de Ẹ (respec- 
to a la medida p), a condición de que n = y. 
En otros términos, la función f(x/y) medible conforme al par de varia- 
bles x, y es la densidad condicional de £ a condición de que y = y, si 
1) Para cualesquiera conjuntos de Borel, A C R*, B C R° 


j) ¿LEMA € dy) = P(E € B, n € A), B) 
via xis 


2) Para cada y la función f(x/y) es la densidad de distribución de las 
probabilidades. 
Del teorema 1 se deduce que si existe la densidad condicional, entonces 


MG(9/m) = [s0Y/muax). 


Si suponemos adicionalmente que la distribución de y tiene una densi- 
dad qW) respecto a cierta medida A en R“, entonces (3) se puede escribir 
de la forma siguiente: 


J, [SEPIA = PE EAN € A), (4) 
da is 


Examinemos ahora el producto directo de los espacios R* y R* y, a 
base de él, el producto directo de las medidas x x A (si C = B X ABC 
CR', A C RÝ, entonces 4 X MC) = ¿(B)MA4)). En este espacio la relación 
(4) significa, evidentemente, que la distribución compatible de £ y y en 
R* x Rf tiene una densidad respecto a p X À, igual a 

S y) = færa). 


Pero también es válida la afirmación inversa. 


9—8030 
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Teorema 2. Si la distribución compatible de £ y ņ en R* x R* tiene una 
densidad f(x, y) respecto a p X h, entonces la función 


So = IE, donde q0) = |y pudo 


es la densidad condicional de £, a condición de que y = y, y la función 
qÙ) es la densidad de y respecto a la medida ». 
Demostración. La afirmación del teorema respecto a q(») es evidente, 


ya que [ab)May) = P(n € A). Queda señalar que f(x/y) = fs y)/q0) 
A 


satisface todas las condiciones en la definición 2 de la densidad condicional 
(la igualdad (4) equivalente a 3 está cumplida de un modo evidente). < 

Observación 1. Las variables aleatorias ¿ y n en el teorema 2 se pueden 
cambiar de lugar. Entonces obtendremos que, a la par con f(x/y), existe 
la densidad condicional 


aom) = IEA, f) = f PMA») 


de la variable aleatoria y, a condición de que £ = x. Este simple corolario 
del teorema 2 desempeñará un papel muy importante en la exposición po- 
sterior. Con arreglo a los problemas de la estadística, este corolario nos 
permitirá obtener, en el párrafo siguiente, la fórmula de Bayes que luego 
se utilizará con frecuencia a lo largo de todo este curso, 

Ejemplo 1. Sea Po, la distribución normal bidimensional de las va- 
riables £1 y t2, donde a: = (ai, œ), 1 = Mgr, 0? = fo) oy = M(Ẹ — a) 
(Ey - a), ¿ j = 1, 2. El determinante de la matriz de segundos momentos 
es igual a 


[| = onon — o = onon (1 — e°) 
donde ç es el coeficiente de correlación entre E, y £2. Ahora bien, si lel 1, 


la matriz de segundos momentos no está degenerada y para ella existe la 
matriz inversa 


1 e 
Cad = 1 o Vanoz 


oz onj 1-a | e EM 
anon 0 


Por lo tanto, la densidad compatible de £, y z (respecto a la medida 
de Lebesgue) es igual a (véase el $ 2) 


A=(0*)"' 
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fœ») = x 
2011022 


ss) 1 (x-a)? _ 2000002) , W- 3) 
xao ayl on 011022 g 3 


Las densidades unidimensionales de $; y Ez son, respectivamente, iguales a 


8 a 


ES 1 a A 1 AR 
nn a e e 
Por eso la densidad condicional de $i, a condición de que z = y, es igual a 
hya LOD a 
ASS a) 


2 
1 1 PE MN > 
“TA G 2 VATN aa d a) J; 


ésta es la idad de la distribución normal, con un valor medio 
ate = Ù — a2) y la varianza 011(1 — q?). De aquí se deduce, 
22 


en particular, que la em.c. de E, con respecto a $z es igual a 


M(1/E) = ai +0 (E: — a). 


EN 
Em 
0 
ti sobre $z. La misma proporciona la mejor aproximación estándar de la 
variable ¢ı para una £, = y dada. 

Ejemplo 2. Examinemos el problema consistente en calcular la densidad 
de la variable aleatoria £ = p(?, y), donde $ y y son independientes. De 
la fórmula (3), cuando A = RŽ, resulta que la densidad f(x) de la distribu- 
ción de £ se expresa, mediante la densidad condicional /(x/y), por la 
igualdad 


La recta x=01 +0 O - az) se llama línea de regresión de 


SO) = [P € dy). (5 


Con arreglo al problema sujeto a examen, por f(x/y) es necesario entender 
la densidad de la variable aleatoria p(f, y), puesto que P(E € B/n = y) = 
= Pelt, y)€ B). 

La fórmula (5) suele ser muy útil al calcular las distribuciones de dife- 
rentes estadísticas, Por ejemplo, en el punto 6 del $ 2 podríamos escribir 
directamente la fórmula (2.7) para la densidad de la distribución de Fisher 
sin deducirla de la forma de la función de distribución. 

9 


132 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


$ 11. Enfoques bayesiano y minimax 
de la estimación de los parámetros 


La esencia del enfoque bayesiano consiste en que el parámetro desconocido 
0 se examina como variable aleatoria con cierta densidad (conocida o des- 
conocida) de distribución q(?), £ € ©, respecto a la medida \, la cual, al 
igual que la medida y en la condición (4,), será lo más a menudo la medida 
de Lebesgue o la medida de cálculo. La densidad q(t) se llama densidad 
a priori, o sea, dada antes del experimento. El enfoque bayesiano supone 
que el parámetro desconocido 0 se ha escogido aleatoriamente de la distri- 
bución de densidad g(1). 

Supongamos a continuación, que f(x), t € 9, x€2” es la función de 
verosimilitud introducida por nosotros en el $ 6. Como ya hemos señalado, 
4(x) es, para cada 1, la densidad de distribución en 2”. Por eso la función 


FO À) = fan 


es la densidad de cierta distribución en 2” x © respecto a la medida y” x A 
que puede interpretarse como la densidad de distribución compatible de 
X y 0. Con tal enfoque, en virtud del teorema 10.2, la función f(x), x € 2” 
es la densidad condicional de X a condición de que 0 = t: 


JU) = fA), Mogt X) = MELO/O). 


En estos planteamientos, el aspecto formal del asunto exige que f(x) 
sea una función medible en £ y x. En lo sucesivo, por doquier donde esto 
sea necesario, supondremos que dicha propiedad tiene lugar. 

Posteriormente, el parámetro, como variable aleatoria, siempre será de- 
signado por 8, mientras que para los valores registrados del parámetro utili- 
zaremos las designaciones f, u, etc., así que 


Meg(X) = M(AY/O = 1). 


A la par con f(x/t) podemos escribir la densidad condicional q(t/x) 
de la variable 6 a condición de que X = x: 


aro = LORO, fi = [rcoaonan. o 


Esta densidad define la llamada distribución a posteriori (o sea, después 
del experimento) de 0, que designaremos por Qx. La igualdad (1) se denomi- 
na fórmula de Bayes para la densidad de la distribución a posteriori. En 
lo sucesivo esta fórmula desempeñará un papel muy importante. 

Con arreglo al caso bayesiano, la propiedad 9 de la em.c. significa lo 
siguiente: entre todas las funciones 9* = (X) la mejor estimación para 9 
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(desde el punto de vista de minimización de M(9 — p(X))) es la función 
0% =M(0/X)= | 1a(/XMXdN) = | 1Qrid). 2) 
Definición 1.La estimación 0 definida por las fórmulas (2) y (1) se 


llama bayesiana, correspondiente a la distribución a priori Q de densidad 
CON 

Señalemos una vez más, que para la estimación bayesiana, la desviación 
estándar incondicional 
M(0* — 0) = MM((0" — 0)7/0 = MM4(0" — 0}? = 

= f M4(0" — ade) (3) 
adopta el valor mínimo posible. La relación (3) muestra que la estimación 
baycsiana minimiza el valor medio (con una función ponderal dada 
a(ONdt)) de la magnitud M;(8° — 1}. 

Con otras palabras, si 0 se escoge al azar, con densidad g(1), entonces 
la estimación bayesiana es la mejor desde el punto de vista del enfoque 
estándar. La desviación estándar (3) de la estimación bayesiana puede re- 
presentarse en la forma (véase (1): 

Moh — 0) = l Mlh — DONAN) = 

= fj (- OVINA dx) = | abc (dx) = Mode, 
donde od, es la varianza de la distribución a posteriori Qx: 
owe | E- OIUA = | (1 — MOX Qld). (4) 

El otro enfoque de la comparación de las estimaciones, que ya hemos 
señalado en el $ 8, se basa en la comparación sup Mu(0" — 1, donde 

ù 


T C 0 es un subconjunto dado de 6(T coincide con © o es igual a aquella 
de sus partes respecto a la cual se ha logrado determinar que 0 € T). 

Definición 2. La estimación 9” se denomina minimax si para cualquier 
otra estimación 0* 


F M 
sup M0" — 0? < sup M:(6° — 1). 


Con otras palabras, para la estimación minimax se alcanza 
inf sup M0" — 17 = sup M9" — 1}. 10) 
ete 1er 


Establezcamos ciertas relaciones útiles entre las estimaciones bayesianas 
y minimax. 

Teorema 1. Designemos por 0% la estimación bayesiana para la distribu- 
ción a priori Q de densidad q. Si existe la estimación 0í y la distribución 
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Q tales que para todos t 
M4(0j — O? < [Mu(09 — Y gl)Mdi), (6) 
la estimación 9i es de tipo minimax. 


Demostración. Sea 8° cualquier otra estimación. Entonces sup M;(8* - 


1 
-= 07 > | MO” — Na(oMan) > Me — Padi) > M0 — 1}. < 
Nótese que casi para todos ř pertenecientes al portador Mc 113 
q(t) > 0) de la distribución Q, en la desigualdad (6) debe cumplirse indis- 
pensablemente la igualdad, ya que de lo contrario obtendríamos 


$ MOi — IONAN) < | MA0% — DONAN) 


lo cual contradice la definición de la estimación bayesiana. 
Esta observación nos permite enunciar el siguiente criterio del carácter 
minimax de la estimación, equivalente al teorema 1. 


Teorema 2. Si la estimación 0" 

1) es bayesiana para cierta distribución Q, 

2) M(0° — 1? = c = const para t € No, 

3) M:(0° — t} < c para los demás t, entonces 0* es una estimación 
minimax. 


Si 0* = 09 = 0" satisface este criterio, es evidente que 
sup MO" — 1 = | M0" = PAOA). y) 


Ahora bien, la estimación minimax es una estimación bayesiana que “igua- 
la” los errores M0" — t}? para diferentes t. Esto quiere decir que la distri- 
bución a priori Q, correspondiente a dicha estimación, obliga a ser 
igualmente atentos a todos los valores posibles de 6 sin orientarse, como 
lo hacen las estimaciones bayesianas Oj correspondientes a otras distribu- 
ciones a priori Q > Q, hacia ciertos valores destacados (más probables) de 
0. En vista de-que en el último caso utilizamos una información comple- 
mentaria acerca de 6, es natural que para Q * Q las estimaciones 0% posean 
desviaciones estándar incondicionales de menores valores: 


[M:0% — 1)? Qadi) < | M0 — Qar). 
Por eso la distribución Q en el teorema 2, la cual corresponde a la estima- 
ción minimax $*, a menudo se llama distribución pésima. 

En vista de que tal distribución pésima Q no siempre existe (eso suele 
suceder en los casos cuando © es un conjunto ilimitado), se puede proponer 
el siguiente criterio modificado para determinar la estimación minimax. 

Teorema 3. Si existe la estimación 0i y la sucesión de distribuciones 
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Q% con densidades q™ tales que para todos £ 
Mli — D? < lim sup | MAOK) — a PONAD), 


entonces la estimación 0i es minimax. 


La demostración de este teorema es igualmente simple. Para toda esti- 
mación 0" es válida 
sup Mi(0* — 19 > | MO" — Ma AONdi) > f M0 — NG NAdr). 
t 


De aquí se deduce que 
sup M:(8* — 1}? > lim sup | Me0w — Pa (OM) > M0 - 1). a 
t kaa 
Ejemplo 1. Sea X € ®a,1. Determinemos qué representa la estimación 


siana aga del parámetro œ con una distribución normal a priori 
QU = bx). En este caso debemos poner Mdí) = dt, 


É 
ON E 
E re 
La distribución a posteriori QU? tendrá una densidad q®%(t/X) propor- 
cional (como función de £) a g"(1/(X) o bien, que es lo mismo, proporcio- 


nal a 
¿A | 
æf- 73 Na - ») 
De la igualdad 
a A A Y A A 
2 Nk 2 We 1 2 a 
k k 
se deduce que 
E E ER 
Be Tir 


Como la estimación bayesiana aĝe del parámetro a es igual a la esperan- 
2a matemática de la distribución a posteriori, de aquí obtenemos 


ink Xx 
ad DER ES 
al, 

nk 


La varianza de la distribución a posteriori oge = 


Tap "o depende 
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de X. Por consiguiente, en virtud de (4) el error estándar de la estimación 
bayesiana es igual a 


k 1 


1+nk n 
cuando k => «o, Por eso para la estimación a° =X tenemos 
MG 03] = fin, | Malaga — ga 


y, por lo tanto, según el teorema 3, la estimación a” = X es minimax. La 
distribución “pésima” sería aquí la distribución uniforme en toda la recta 
(distribución “límite” para Po,x), si tal distribución existiera ”. 

En el ejemplo siguiente, el conjunto 8 es compacto y existe la distribu- 
ción “pésima”. 

Ejemplo 2. Supongamos que X € Bp, o sea, que xy, j = 1, ..., n adop- 
tan los valores 1 y 0, respectivamente, con probabilidades p y 1 — p, p € 

= [0, 1]. Como sabemos, en este caso para la estimación p* = X es 
válida 


Max — pY = p(l — p)/n, 


así que el criterio del teorema 2 no se ha cumplido. Examinemos la esti- 
mación 


X+ 


1 
p= ME, (8) 
Va 


Para ella el error 


Mp - p° = ( ml ra 4) 


n (ee DD. ¿el )= 
(+ var n a+ 0 


no depende de p. Si ahora nos convencemos de que la estimación (8) es 
bayesiana, determinaremos de este modo su carácter minimax. Examine- 
mos la distribución a priori Q = By+1,11+1, donde Ba,» es la distribución 


Es interesante anotar que la estimación a* = X deja de poseer la propiedad menciona- 
da, si x es una muestra de una distribución normal multidimensional cuya dimensión consti- 
tuye más de dos (y €R*, œ € R*, k > 3). Esto se expone más detalladamente en (48). 
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beta de densidad (véase el punto 8 del $ 2) 


TAL: So ANa 
TAa E oa 


Entonces, como 


MX) = U = Dt, qti) = e Pao”, 


la distribución a posteriori tendrá una densidad q(t/X) que, como función 
de £, será proporcional a f.(X)glt) o bien, que es lo mismo, será proporcio- 
nal a £ 


wg NA AD, 


Esto significa que la distribución a posteriori coincide con 
Brexn+1,0+n0-x)+1- En vista de que el valor medio de la distribución 
Ba es igual a 21/)1 + M) (véase el punto del $ 2), la estimación bayesia- 
na po, correspondiente a Q, será igual a 


o N+3n+l _ 3+(N+)/n 
PENA TF ANA Dn" 


Cuando N + 1 = vn/2, está estimación coincidirá con la estimación p* de- 
finida en (8) y, en virtud del teorema 2, será minimax. La distribución Q 
será la peor (pésima), ya que se concentra o medida que crece n alrededor 
del “peor” valor del parámetro p = 1/2 con el que la varianza de la estima- 
ción X, igual a p(l — p)/n = 1/(4n), será máxima. La propia estimación 
X no es minimax, ya que 


pa-p) l 1 
sp TES IN 


Al mismo tiempo es natural que para todos los valores de p que están fuera 
del entorno estrecho del punto p = 1/2, la estimación X será, sin embargo, 
mejor que pg, y esto tendrá lugar para todos los valores p para los cuales 


1 
PAS AA 


En el caso general la determinación de las expresiones exactas (funciones 
explícitas de X) para las estimaciones bayesianas y minimax no es siempre 
posible, Por eso es natural utilizar también el enfoque asintótico. 

Antes de introducir las definiciones correspondientes, debemos recordar 
que las estimaciones bayesianas y minimas 87 y 0* han sido definidas por 
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las desigualdades 


MO — 07 —- M(0" — 6 < 0, 
9) 
sup M:@' — 1? — sup M(8° — 1? < 0 


para cualquier estimación 6”. No sería racional determinar el carácter baye- 
siano y minimax de las estimaciones, añadiendo simplemente a los primeros 
miembros el signo del paso límite (lim, ), ya que, por regla general, para 
las estimaciones a.n. de Me(9* — 0)? ~o?°(0)/n, los primeros miembros en 
(9) también convergerán hacia el cero. Por eso es natural examinar, diga- 
mos, la relación de los sumandos en (9). Teniendo en cuenta que más ade- 
lante se tratará principalmente de las estimaciones para las cuales 
M6(0* — 0)” tiene un orden de pequeñaz igual a 1/n, se puede utilizar de 
un modo equivalente la definición siguiente. 

Definición 3. La estimación 0] se denomina asintóticamente bayesiana 
o asintóticamente minimas, si para cualquier otra estimación 0* se cumple, 
respectivamente, 


lim_sup [Mn(0j — 0) — Mn(0* — 0] < 0, 
lím sup [sup Mni — 1? — sup Mun(0” — Y] < 0. 
naeh e ter 


Como veremos, la determinación de las estimaciones asintóticamente baye- 
sianas y asintóticamente minimax es posible para suposiciones muy 
amplias. 

En el caso multidimensional (cuando 0 € R* es un vector) la propiedad 
9) de la e.m.c,, como hemos visto, se conserva, y la estimación 

6b = M(0/X) 
minimizará 
v(8*) = M(0" — 0)V(0* — 0)” = MMe(0* — 0)V(0" — 07 = 
= | M0" — NVO = NAONA) 

para cualquier matriz V definida no negativamente o, que es lo mismo (véa- 
se el $ 8), minimizará la desviación estándar 9* — 9 promediada (con peso 
a(t)) en cualquier dirección a € R*. 

Definición 4. La estimación 0% se llama bayesiana si para cualquier otra 
estimación 9* y para cualquier matriz V definida no negativamente, 


v(0%) < v(0”). 
La estimación 8f se llama asintóficamente bayesiana si 
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lím sup [nv(0i) — nv(99)] < 0. 


Definición 5. La estimación Y” se denomina minimax si para cualquier 
otra estimación 0” y para cualquier matriz V definida no negativamente, 


sup M4" - NVE — 1” — sup M(0" — DVE 1) < 0. 
se 1er 


La estimación 0 se denomina asintóficamente minimax si 
lim sup [sup Men(% — NVO — 1) — sup Mn’ — NVE — N7 <0. 
o tE 


Concluyendo este párrafo señalaremos una vez más que las designacio- 
nes MoS, Po(A4), fo(x) en el caso bayesiano pueden ser consideradas, si es 
necesario, desde un nuevo punto de vista: como esperanzas matemáticas, 
probabilidades y densidades condicionales respecto a 0, o sea, como 
M(S/0), P(A/0) y f(x/0), respectivamente. 


$ 12. Estadísticas suficientes 


En el párrafo anterior hemos examinado la cuestión acerca de la cons- 
trucción de dos tipos de estimaciones óptimas: bayesianas y minimáx. En 
este párrafo introduciremos el concepto de estadística suficiente, que nos 
permitirá construir estimaciones eficientes, o sea, otro tipo de estimaciones 
óptimas destacadas en el $ 8. 

La noción de estadística suficiente desempeña un papel importante en 
la estadística matemática en general y en la teoría de las estimaciones en 
particular. 

Convengamos en designar las estadísticas, o sea, las funciones medibles 
arbitrarias (escalares o vectoriales) de X, con el símbolo S = S(X). 

Sea X € Po, Po € P= (Po). Examinemos la distribución Po(X € B/S), 
B € Bå que es condicional respecto a la variable aleatoria S y que ha sido 
engendrada por la distribución Py en 2”. 

Definición 1. La estadística S = S(X) se llama suficiente para el pará- 
metro 6, si existe la variante de la distribución condicional Pa(X € B/S) 
que no depende de 6,, 

Sabemos que P(X € B/S) es, para cada B, la em.c. y, por consiguiente, 
existe una función P(B/s) de Borel en s para cada B, tal que 


PAX € B/S) = P(B/5). 
Podemos considerar (véase el $ 10) que P(B/5), como función de B, es la 
distribución condicional de las probabilidades, a condición de que S = s. 


Esta distribución puede interpretarse como la distribución de X en la super- 
ficie S(x) = s. 
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Pero si S es una estádística suficiente , entonces dicha distribución ¡no 
depende de 6! Esto significa que el conocimiento del lugar donde se encuen- 
tra el punto muestral X en la superficie S(x) = s no nos comunica ninguna 
información complementaria acerca del parámetro 6. (Pues está claro que 
nadie se dedicará a determinar el parámetro desconocido en el ejemplo 
1 de la Introducción, con ayuda del lanzamiento de una moneda, puesto 
que la distribución del número de “caras” o “cruces” con tal lanzamiento 
no depende de 6 en absoluto). 

Esta circunstancia importante significa, a su vez, que toda la informa- 
ción acerca del parámetro 6 está contenida en el valor de la estadística S. 
De aquí precisamente procede su nombre: estadística suficiente. Hablando 
en términos generales, el conocimiento de S(X) es suficiente para construir 
el parámetro 9, pero los demás datos contenidos en la muestra X son 
inútiles, 

Ejemplo 1. Sea X € M. Demostremos que la estadística S = nX = 
= Zx es suficiente para el parámetro de la ley de Poisson A. Debemos 

lar 
convencernos de que la distribución de la posición del punto X en la super- 
ficie E = s (s es un número entero) no depende de à En sisi de que 
i 


P(X = k Ex = s) = P(X = x) cuando Èx = s, entonces 


Pu =x, - qu P g 
0 si Siad 


P(X =x/nX = s) = 


Como x, son independientes, $; x; € Ma, el segundo miembro de (1) es 
a 


(e> a) TY eMe sto 
si pa xl "II xi 


ma 


igual a 


Ahora bien, la distribución de X, que es condicional cuando S = s$, 
coincide con la distribución polinomial B (véase el $ 2) con n casos, equis 
probables (o sea, con el vector de probabilidades p = (1/n, ..., 1/n)) y 
con s pruebas independientes. Es evidente que la disribución no depende 
de A, así que S = nx es una estadística suficiente para A. 
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El concepto de estadística suficiente fue introducido en 1922 por Fisher. 
El siguiente teorema de Neyman — Fisher lleva el nombre de teorema de 
factorización y establece un criterio elemental de existencia de la estadística 
suficiente, 

Supongamos que ha sido cumplida la condición (4,) de existencia de 


la densidad fof) = -Fe (+) 


Teorema 1. Para que S sea una estadística suficiente para 0, es necesario 
n 
y suficiente que la función de verosimilitud fa(x) = T] fo(xi) sea represen- 
der 
table en la forma 
Sex) = USC), BAG) esla”, a) 
donde cada una de las funciones y > O y h > 0 depende sólo de sus propios 
argumentos, y(s, 6) es medible en s, y h(x), en x. 

Por supuesto que la representación (2) no es unívoca. Sus componentes 
han sido determinados con una exactitud de hasta una función positiva 
arbitraria de S@). 

En el ejemplo anteriormente examinado, con la distribución de Poisson, 

= A yr . -= 
x)= e> D m ey —, n= n 
swo- > H 5 a 


dal dui 


así que podemos, para S = nX, poner 


WS. N =e "Nh, rœ- TI Sr: 
tal 
De aquí, en virtud del teorema 1, resultará que S = nX es una estadística 
suficiente. 

La demostración del teorema 1 aquí sólo se da para dos casos particula- 
res más importantes: para el caso discreto y para el caso “suave”. En el 
caso general, la demostración del teorema de Neyman — Fisher se da en 
el Suplemento IV. 

En el caso discreto, y es la medida de cálculo en el conjunto numerable 
Zde los posibles valores de x; y, por lo tanto, fa(x) = Po(x, = x)xE2 
Supongamos que al principio ha sido cumplida (2). Entonces, para el punto 
registrado x € 2”, 
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Como {X =x, S(X) = S(x)] = {X =x), el segundo miembro de (3) es 
igual a 


PAX=x) __ Ll) 
PASOS = S0) 2 so) 
Y:S0)= S) 
USO) 8) AD 0, 
2 HSO), ORO) 2 hO) 
FSS) rss) 


Ahora bien, Pa(X = x/S(X) = S(x) no depende de 0. 

Al contrario, si el primer miembro de (3) no depende de 6, entonces, 
designándolo por A(x), de (3) obtenemos Pa(X = x) = falx) = Pa(X = x; 
S(X) = S) = A) PSO = S), donde PAS(X) = S(x)) = US), 
9) depende solamente de S(x) y de 6. < 

De un modo algo más complicado el teorema 1 también se demuestra 
en otro importante caso particular, o sea, en el caso “suave” cuando p 
es la medida de Lebesgue en R, y la estadística S(X) se supone que es fun- 
ción suave de X, es decir, una función tal que existe la sustitución de las 
variables yı = S(x), yz =Y2(%), ..., Jn = Jn(x), resoluble respecto a 
x= Or e 
a.s Ja), con un jacobiano distinto del cero J = ES 4 0. En este caso, 


como es sabido de las fórmulas del análisis clásico sobre la sustitución de 
la variable en la integral, la densidad de la variable aleatoria Y = (S(X), 
PAX. -s In(X)) será igual a 


BD) = SI y = O -os Ma). 
La densidad de la variable aleatoria yı(X) = S(X) será igual a 
PO) = | gelvddy ... da= | Sady.. dya, 
ahr q 
y la condicional de Y, a condición de que S(X) = s, será, por consiguiente, 
determinada por la relación 
n= SON e LG só 
E 
Después de estas observaciones preliminares, la demostración del teorema 
1 para el caso “suave” se desarrolla al igual que para el caso discreto. En 
efecto, si se ha cumplido (2), entonces 
ets) = e AN 
[ Ys OñColidy -.. dyn 


yor 
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En esta relación, y(s, 6) se reduce. Esto significa que la distribución de 
Y, condicional a condición de que S(X) = s, y, por lo tanto, también la 
distribución de X no depende de 9, 

Al contrario, si p(y/s) no depende de 0, entonces 


SUD) = to cuando s = S(x). 
Esto significa que (2) se cumple cuando ys, 0) = 8s), h(x) = 
=AY//U. < 


Ejemplo 2. Sea X € a.. Aquí el parámetro 8 = (æ, 0?) es bidimen- 
sional. Tenemos 


m-e orano [Zuza] 
Ti 


$ 2an + nè 
“ep[- Ex? Zani tna Jona, 


Poniendo S$ = (Si, S2), Sı = nx, S2 = Ð x}, obtenemos la representación 
a 
(2), donde 


US D oap- a h = ema, 


Aquí podríamos, desde luego, atribuir el factor (2x)”""? también a la fun- 
ción y, poniendo A(X) = 1. 

Ahora bien, hemos obtenido que la estadística (S,, S2) es una estadística 
vectorial suficiente para (cx, o°). De toda la información contenida en la 
muestra nos es suficiente saber X y Dx}. 

Proponemos al lector hallar las estadísticas suficientes para todas las 
familias de distribuciones citadas en el $ 2. 

Concentraremos la atención tan sólo en una de estas familias. 

Ejemplo 3. Sea X € Uo,s. Aquí la condición (A,) se cumple con respec- 
to a la medida de Lebesgue y 


= (07" si 0 <x < 8 cuando todos i = 1, ....n 
m= H en el caso contrario. 


Sea xq) = mín Xi, Xm) = máx x; Entonces, como hemos visto en el 
ejemplo 6.5, la función f.(X) puede ser escrita en forma de fa(X) = Wx, 
DAX, donde 


1 si xa) >0, 
=> 6 en el caso contrario, 
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= (07" para s<0, 
vis O= Lo en el caso contrario. 


Esto significa que S(X) = Xm es una estadística suficiente para 9. 

Análogamente el lector puede convencerse de que para la muestra X € 
€ Us, 1 + o, como estadística suficiente para el parámetro 6, sirve la estadísti- 
ca bidimensional S(X) = Xa), Xm). Asimismo será la estadística suficiente 
para el parámetro bidimensional $ = (a, b) cuando la muestra ha sido ex- 
traída de la distribución Ua,». 

Citaremos dos corolarios del teorema 1. 

Corolario 1. Si S es una estadística suficiente para 6, la estimación de 
verosimilitud máxima depende únicamente de S. 

Mejor dicho, la ev.m. Ó* no depende de X cuando se ha registrado S(X). 

Este corolario es evidente, ya que la ev.m. es un valor de 0 para el cual 
se alcanza el máximo de fo(X) = US(A),9)/(X) o bien, que es lo mismo, 
el máximo de Y(S(X), 6). 

Corolario 2. Si S es una estadística suficiente y la función y es tal que 
la aplicación u = p(v) es bluntvoca y medible en ambas direcciones, enton- 
ces Sı = p(S) también será una estadística suficiente. ' 

Este corolario también es evidente, puesto que W(S, 6) en (2) puede escri- 
birse en forma de Wg” (Sy), 6) = Y(Si, 0). 

También es válido un criterio más de suficiencia de la estadística S. 

Teorema 2. La estadística S es suficiente para 0 si y sólo si para toda 
distribución a priori Q del parámetro 6 la distribución a posteriori Qx de- 
pende de X tan sólo a tráves de S(X) (o sea, permanece invariable en la 
superficie de S(X) = $). 

Demostración. Supongamos que S es una estadística suficiente y que 
q(t) es la densidad Q respecto a cualquier medida ». Entonces, la densidad 
a posteriori g(t/X) respecto a dicha medida, según la fórmula de Bayes 
será igual a 

J/K) = AUO a YSOO, DAN 
MIA TONIS ” JASO, NEO * 
Demostremos ahora la afirmación inversa del teorema. Escojamos una 


distribución a priori de modo que g(1) > © en todas partes sobre O y para 
todos £ 


Aoo = LLL. SOO = Yoga, 


Si q(e/X) = g(t, S(X)), entonces, poniendo Ys, £) = g(4 s)/a(), MX) = 
= f(X), obtenemos la representación (2). < 
Corolario 3. Si S es una estadística suficiente, todas las estimaciones 
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bayesianas y las estimaciones minimax definidas con ayuda del teorema 
11.2 dependen únicamente de S. 

En adelante obtendremos muchas otras confirmaciones de que la esta- 
dística suficiente S contiene la información completa acerca de 0. 


$ 13! Estadísticas suficientes mínimas 


Examinemos ahora la cuestión acerca de la elección de las características 
suficientes. Claro está que el número de éstas puede ser muy grande, Por 
ejemplo, la estadística S(X) = X siempre es evidentemente suficiente. La 
misma se llama estadística suficiente trivial. Sin embargo, estamos interesa- 
dos (posteriormente será aclarado el porqué) en estadísticas más “económi- 
cas”, Resulta que no siempre, ni micho menos, se pueden construir 
estadísticas suficientes que sean mucho más “económicas” que la estadísti- 
ca suficiente trivial. Volveremos a esta cuestión después que determinemos 
más exactamente los conceptos relacionados con la “economía” de las ca- 
racterísticas suficiente.. Para esto, introduzcamos en el conjunto de todas 
las características suficientes (para cierto parámetro 0), un orden parcial. 

Definición 1. Diremos que la característica S, está subordinada a Sa 
si Sı es una función medible de S2:S, = p(S»). 

Esta relación significa precisamente que S; es más “económica” que S2. 

Definición 2. Si S, está subordinada a $z, y Sz está subordinada a Si 
las estadísticas Sı y Sz se denominan equivalentes. 

Evidentemente, S, es equivalente a Sz si y sólo si S, = (Sa) y y es una 
aplicación biunívoca medible en ambas direcciones. 

Definición 3. La estadística suficiente Sọ se denomina mínima si está 
subordinada a cualquier otra estadística suficiente $. 

La estadística suficiente mínima es la más económica. Si hemos cons- 
truido la estadística suficiente mínima S, entonces, siempre que se conserve 
la propiedad de suficiencia, será imposible la reducción ulterior de los datos 
en comparación con S. Los demás datos contenidos en la muestra pueden 
considerarse como engendrados por cierto mecanismo aleatorio no depen- 
diente de 8, y ellos no proporcionan ninguna información acerca de 9, 

Los conceptos introducidos, al igual que el concepto inicial de estadísti- 
ca suficiente, pueden exponerse, de forma ligeramente generalizada, en el 
lenguaje de las o-álgebras, que en una serie de casos resulta más cómodo 
y evidente. Al principio —en la definición 1 del párrafo precedente— la 
distribución condicional Ps(X € B/S) se puede sustituir por la distribución 
condicional Pe(X € B/U) respecto a la o-subálgebra U C By la Uo- 
álgebra se puede llamar suficiente si existe cierta variante Po(X € B/U) que 
no depende de 0. 


108030 
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Con tal enfoque, el teorema de factorización se conserva si la función 
WS(X), 0) es sustituida por la función Y(X, 6) U-medible en X. La demos- 
tración de este teorema, expuesta en el Suplemento 1V, prácticamente no 
se diferencia de la anterior. 

La estadística suficiente ahora puede ser definida como una estadística 
S para la cual la o-álgebra de o(S) será suficiente. 

En el lenguaje de las o—álgebras, la subordinación de las caracteristicas 
suficientes (véase la definición 1) no exigeoque se introduzcan conceptos 
complementarios y coincide simplemente con el encaje de las o-álgebras: 
$, está subordinada a $& si 0(S,)C o(S2). Ahora bien, S, es más económica 
que Sz si la o-álgebra de ø(Sı) es más pobre que o(S2). La equivalencia de 
Sı y S significa que ø(Sı) = 0(S2). 

La o-álgebra suficiente mínima de Uo se define como una o-álgebra que 
se encaja en cualquier o-álgebra suficiente. 

La o-dlgebra suficiente mínima existe siempre. Para convencerse de ello 
señalaremos previamente que, en virtud del teorema 2 del Suplemento IV, 
existe una distribución Q en € (además, discreta), tal que todas Ps son 
absolutamente continuas respecto a la distribución Po = [P/Q(ds). 

Esto significa que fo(X) = [£(XM)Q(dN) > 0 para todas X, o que de la 
igualdad Jo(X) = 0 resulta f(X) = 0 para todos 0. En este caso se dice 
que Po domina la familia (Ps), así que podriamos adoptar Po como medi- 
da de y. La densidad de la distribución Pe respecto a esta medida es igual a 


dPo = Lx) 
dea OT» 


Está claro (compárese con el teorema 12.2) que si $ es una estadística sufi- 
ciente, r(x, 6) depende de x sólo a través de S(x). 
Teorema 1. La o-álgebra de Ulo = o(r(X, 6); 0 € O) engendrada por las 


variables aleatorias r(X, 0) = fAX)/fAX) para diferentes 0 € O, es una 
-álgebra suficiente mínima. 


La demostración del teorema es muy simple. La suficiencia de Uo resulta 
del teorema de factorización y del hecho de que 


SO = X, YEN, (0) 
donde fo(X) no depende de 6, y r(X, 6) es medible respecto a Up. 
Sea ahora U cualquier ø-álgebra suficiente. Entonces fo(X) = WX, 


0)(X), donde la función YX, 6) es U-medible, Examinemos la o-álgebra 
de Uy = (YX, 0), 8 € O) C U. De la definición r(X, 6) se deduce que 


nx p= 2% 0 


(4%, Da) 


y, Por lo tanto, Uo C U CU. <a 
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Con este teorema y con el teorema 12.2 está estrechamente ligada otra 
afirmación útil. Examinemos el planteamiento bayesiano del problema 
cuando Ó es una variable aleatoria con la distribución a priori Q. Sea 
q(t) > O la densidad de esta distribución con respecto a la medida conve- 
niente à en O. Entonces la densidad a posteriori será igual a 


aux) = En AO rx, DIO, 


y, por consiguiente, la ø-álgebra suficiente mínima de Uo puede considerarse 
como engendrada por la distribución a posteriori: 


Uo = o(q(t/X); 1€ 0). 


Por regla general, la determinación de las distribuciones Q y Po que 
figuran en el teorema 1 no es difícil. Por ejemplo, si el portador Npe de 
la distribución Po no depende de 6, lo que tiene lugar para la mayoría de 
las distribuciones citadas en el $ 2, se puede tomar Py = Po, para cual- 
quier 00 € O. 

Así pues, disponemos del teorema de existencia y del método eficaz 
para la construcción de las o-álgebras suficientes mínimas ”. 

No obstante, las más de las veces parànosotros será más cómodo exami- 
nar las estadísticas. El fin principal de estépárrafo consiste en determinar 
las estadísticas suficientes mínimas. 

Ante todo, ¿de qué modo podemos comprobar que la estadística sufi- 
ciente dada So es mínima? 

Una de las posibilidades consiste en la utilización del teorema 1. Si v(So) 
coincide con la o-álgebra engendrada por f()/fo(X), entonces So es la 
estadística suficiente mínima. 

Ejemplo 1. Hemos visto que la estadística S = nx es suficiente para 
el parámetro A de la distribución de Poisson Mh. Ella será la estadística 
suficiente mínima, ya que o(S) coincide, evidentemente, con la o-4lgebra 
engendrada por f(X)/M(X) = en0 - NAM) (aquí hemos tomado la 
distribución Q concentrada en el punto Ay). 

Ejemplo 2. Sea X € Uo,s. Entonces la estadística S = Xn) = máx x; 
es la estadística suficiente mínima. En efecto, tomemos en calidad de Q 
cualquier distribución sobre [0, æ)-con desindad g(£) > O para todos 1 > 0. 


Entonces 
hO = [E 0>S, 


o, e<sS, 


” La existencia de la -álgebra suficiente mínima de Uo también se puede establecer de 
tra manera, demostrando que Uo es la intersección de todas las ø-álgebras suficientes com- 
pletadas. 


10* 
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AO) => j4e0uns = (e "glar > 0 
3 


para todas X. En este caso S = sup{8:fa(X)/fo(X) = 0), lo cual significa 
que S es medible respecto a la o-álgebra mínima de Uo, a(S) C Uo y que, 
por lo tanto, S es la estadística suficiente minima. 

Podemos indicar otro método de determinar las estadísticas suficientes mínimas, el cual 
también está relacionado con la función de verosimilitud. En efecto, toda estadística y, en 
particular, la estadística suficiente $ engendra la partición del espacio muestral en clases de 
equivalencia, o sea, en conjuntos de los puntos x con iguales valores de S(x). 

Si Sı está subordinada a Sz, o sea, S, = v(S2), es evidente que para S; la partición será 
más grande, ya que las clases de equivalencia para Sz se contienen en las de equivalencia 
para Sı. Ahora bien, a la estadística suficiente mínima le corresponde la “mayor” partición 
entre las particiones engendradas por Jas estadísticas suficientes. 

Se pueden examinar simplemente las particiones del espacio en clases de equivalencia 
sin relacionarlas directamente con las estadísticas. Designemos por D(x) la clase de equivalen- 
cla que contiene el punto x. Cada clase se define univocamente por un punto cualquiera. 
Llamaremos suficiente la partición en clases D si 


Ss) = el, Dhla), (6) 


donde gix, 0) = (xa, 0) es constante para x € D(x) (o sea, pix, 0) = const dentro de la clase 
de equivalencia). Si las clases D(x) son definidas por las relaciones S(x) = s, del teorema 
11.1 se desprende directamente que la estadística S(x) es suficiente si y sólo si la partición 
en clases D es suficiente. 

Examinemos ahora ta partición construida del modo si 
declaremos que x pertenece a la clase D(x) si la relación 


FE tx a o 


no depende de 0. Es evidente que con tal construcción, Da) = D(x) = D(x) si x, € Dio), 
xı € D(xo), así que la regla (3) engendra la partición de todo el espacio en clases disjuntas. 
Esta partición corresponde a la engendrada por la estadística suficiente mínima S. 
En efecto, sea S la estadística suficiente mínima. Tomemos un punto arbitrario xo. Enton- 
ces sobre la superficie S(x) = S(x), la relación fa(x)/f4x) es igual a A(x)/A(%) y, por consi- 
guiente, no depende de €. Asi pues, la partición en clases D és no menos grande que la 
partición para S. 

Por otro lado, esta partición es suficiente. Efectivamente, podemos hacer que a cada super- 
ficie D le corresponda un punto cualquiera xp de ella, a partir del cual la misma será definida 
univocamente. Examinemos la función xo(x) que se define según la relación xo(x) = xo si 
x € D. Entonces, en virtud de (3), cuando x € D, 

Le) = felxodx, xo) = fx, xx), 9 
que significa el cumplimiemo de (2). 
Los planteamientos efectuados no han sido del todo estrictos, ya que no los hemos reta- 
cionado con la cuestión acerca de la mensurabilidad de las funciones que forman parte de (4). 
Lo dicho se puede resumir del modo siguiente. Supongamos que se da una estadística 
S(X) tal que S(x) = S(x) si y sólo si la relación (3) no depende de 6. En este caso $ es 
la estadístico suficiente mínima. 
A distinción de los enfoques relacionados con el teorema 1, donde fueron examinadas 
las relaciones Ja0//000) o bien So(x)/Ja,(x) para diferentes 8 y 9: (denominadas con frecuen- 


jiente: tomemos el punto xv, y 
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cia relaciones de verosimilitud), la regla enunciada más arriba utiliza la relación fa(x)/fo(xo) 
para iguales valores del parámetro 0. En el ejemplo 1, por ejemplo, la relación 


AONAN) = MD — Foxx! = NOS — TTD! 


no dependerá de A si y sólo si ==} xo, donde xo son las coordenadas 
del vector xo. Esto es suficiente para sacar la conclusión de que S(x) = X es la estadística 
suficiente mínima. 

Valiéndonos de la regla propuesta, examinemos ahora un ejemplo cuando no existen esta- 
dísticas suficientes “ económicas”. Antes que nada señalaremos que la serie variacional 
Sy = (Ka, Xy, - + Xw), construida según la muestra X, es siempre, evidentemente, la estadis- 


tica suficiente, ya que (A) = TI aœ) = [I Jaxon). Esta estadistica es “un poco más 
sai zar 

económica” que la propia muestra x. De aquí, en particular, se deduce que cualquier estadisti- 

ca suficiente mínima es invariante con respecto a la permutación de las coordenadas x; en 

la muestra X. 

Si la densidad fu(x) es simétrica, o sea, f(-x) = f(x) para todos 6, es evidente que existi- 
ráuna estadística suficiente, un poco más “económica”, que representa la población (xf, ..., 
xa) ordenada en función de su crecimiento y que designaremos por Si. 

Ejemplo 3, Si X € Ko, O sea, si x tiene densidad de distribución de Cauchy con paráme- 


tro 


o 
E T 


la estadística Sy* será la estadística suficiente mínima. 


En efecto, en este caso 
(x) = 8) TI ott t, 
ia 


así que 


8-1 $2 
da AL A ld 
es la relación de dos polinomios de o”, la cual no depende de o si y sólo si los coeficientes 
de las potencias correspondientes de o° coinciden en el numerador y el denominador, Esto, 
a su vez, tiene lugar si y sólo si los conjuntos de “ceros” [—x2%] y [—x) coinciden. Con 
otras palabras, para que (5) sea independiente de ø es necesario y suficiente que el punto 
xX = (x, XÂ) tenga coordenadas que se distingan de las de x3 tan sólo por la permutación 
de sus lugares. Esto precisamente significa que Sy es una estadística suficiente mínima. 
De manera completamente análoga se puede demostrar que Sy es una estadística suficiente 
mínima para el parámetro æ y, por lo tanto, para el parámetro 9 = (a, o) de la di jución 
Kam 
Otro ejemplo, en el que Sy será una estadística sifuciente minima, se obtiene si se examina 
la familia 


Pate = aPs, + (1 — a)Pi a€ [0, 1], 


donde (Ps) es una familia exponencial (véase $ 15, en calidad de Pe se puede tomar la distri- 
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bución normal o la distribución de Poisson) y donde al menos uno de los parámetros a, 
01, 0z se desconoce. 

Ahora demostremos un teorema que indica un método “estructural” 
simple de determinación de las estadísticas suficientes mínimas. 

Para simplificar la exposición examinemos el caso del parámetro unidi- 
mensional 8. 

Teorema 2. Supongamos que la función de verosimilitud fa(x), para to- 
das x como función de 9, es continua a la derecha (o a la izquierda). Enton- 
ces, si la estimación de v.m. Ú" es única y la misma es una estadística 
suficiente, entonces Ú' será la estadística suficiente mínima. 


Demostración. Sea S una estadística suficiente arbitraria. Demostrare- 
mos el teorema si mostramos que ĝ* es medible respecto a a(S) y, por lo 
tanto, Ó* está subordinada a S. 

En virtud del teorema de factorización, 


Sel) = USC), DA) esla”), (6) 


donde A(x) es la función medible en x, y Y(s, f) es continua (a la derecha 
o a la izquierda) en £ y medible en s. Como Po no variará si la densidad 
JSo(x) cambia en el conjunto de la y"-medida 0, podemos considerar que 
(6) es válida para todos x. 

En virtud de (6), el punto del máximo absoluto de fs(x) también es 
el LS máximo absoluto para Y(S(x), 0). Por eso, en virtud de la unici- 
dad de 6”, 


18 <t) = (sup USCO, 0) > sup USO, 6). 
ea on 


En vista de que Y(S(X), 8), para cada S(X), es continua en O a la derecha 
(o a la izquierda), existe un conjunto numerable, denso en todas las partes, 
Oe = [0/)71 C O (igual para todos los S(X)) tal que 
sup WSOY), 6) = sup USOY), 0). mM 
oci 9< 
00. 


Esa misma relación será válida para la región de 0 > £. Como Y(S(X), 6,) 
son medibles respecto a o(S), en virtud de (7), los valores de sup AS, O 
<r 


y sup WS, 0) serán variables aleatorias también medibles con respecto a 


a(S). Por consiguiente, (9* < £} € o(S), y el teorema ya está demostrado. < 

En la condición de la afirmación citada, la condición de suficiencia 
de la cv.m. Ê” es esencial, puesto que la estimación de verosimilitud máxima 
6, como tal, no es obligatoriamente una estimación suficiente. Es fácil 
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obtener un ejemplo respectivo examinando cualquier familia de distribucio- 
nes (Po), con parámetro escalar 8 y con estadística suficiente mínima vecto- 
rial S(cuya dimensión es mayor que 1). En este caso la estimación de 
verosimilitud máxima ĝ* también será escalar, así que la o-álgebra de o(S) 
será más rica que o(Ó”) y, por lo tanto, la inclusión de a(S) C 0(Ó"), que 
se desprende de la minimalidad de $ y de la suficiencia de ĝ*, es imposible. 

Ejemplo 4. Sea X € Us,1+0, O = R. Entonces, como hemos visto en 
el ejemplo 6.4, 


= fl para 0< xa < Xm <S 1 +9, 
Je%0 = Lo en el caso contrario, 


así que fo(X) depende de X solamente a través de xq) y Xq). Esto significa 
que S = (Xu), Xm) es una estadística suficiente. Ni una de las magnitudes 
Xu)» Xan) por separado es una estadística suficiente. Eso lo demuestran las 
relaciones siguientes: 


Plxa) > u, Xq) <v) = [Po € lu, v)) = 


= (v — uy" cuando u>0,v<1+0,v>u. 


Por consiguiente, la densidad compatible de distribución de (Xa), Xm)) será 
igual a 


OEE sai 1Xv - uy? cuando u > 9, v < 1+9, v >u, 
j en los demás casos. 


Seguidamente, P(x) >u) = (1 + 6 — u)” cuando 0 < u < 1 + 0, así que 
la densidad de Xq) es igual a 


glu) = n(1 +8 -u)""! cuando 0 <$ u Ș 1 +0. 


De aquí ya es fácil obtener que la densidad condicional g(v/u) de la magni- 
tud Xq»), a condición de xq) = u (y, por lo tanto, también la distribución 
condicional correspondiente), dependerá de 6. Esto significa que xa) (al 
igual que x(»)) por separado no son estadísticas suficientes. Como en cali- 
dad de e.v.m. 6* podemos tomar ĝ* = xq) (véase el ejemplo 6.4, por lo tanto, 
hemos demostrado que para la familia Us,1+>0, la ev.m. Ó* no es una 
estadística suficiente. 

Mediante el teorema 1, el lector puede convencerse personalmente de 
que S = (X(1), Xm) es una estadística suficiente mínima para Us,1+ s. 

La condición de suficiencia de 6” en el teorema 2 será cumplida automá- 
ticamente si suponemos que existe una estadística suficiente escalar (para 
un 0 unidimensional) So, para la cual la función y en la igualdad $* = (So) 
será biunivoca (o sea, Ó” y Sa serán equivalentes). 
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$ 14. Construcción de estimaciones eficientes 
por medio de estadísticas suficientes, 
Estadísticas completas 


Definición 1. La estimación 0” se denomina suficiente si es una estadística 
suficiente. 

1. Caso unidimensional. Supondremos aquí que 0 es un parámetro esca- 
lar, Sea Kp la clase de todas las estimaciones 0” con desplazamiento b(0), 
asi que 0° € Ke si a(0) = M8" =0 + b(0). Para 0° € Ka tenemos 


Mo(0” — 0)? = Mo(8* — a(0))? + (a(8) — 0)? = Da0" + b?(0). 


En este párrafo omitiremos, a veces, el indice 6 de los símbolos Ma, De. 
La siguiente afirmación fue obtenida independientemente por Black- 
well, Rao y Kolmogórov. 


Teorema 1, Sea S una estadística suficiente, 8° € Ko. Entonces la función 
05 = Mo(0"/S) es una estimación que posee las siguientes propiedades: 

1) 03 € Ko, i 

2) 03 depende de la muestra tan sólo a través de S(X), 

3) Mo(05 — 0)? < Mo(0* — 0) para todos 6. 
La última desigualdad se transforma en igualdad tan sólo si 9* = 03 cd. 
respecto a Po. 


Con otras palabras, en la clase Kb, la aplicación de la operación Mo(-/5) 
a 0* mejora uniformemente la estimación 6”. 

Demostración. El hecho de que 03 es una estimación, significa que 03 
no depende de ê y que es una función medible de X. Su independencia 
respecto a 0 se desprende de las propiedades de las características estadísti- 
cas, ya que la distribución de X para una $ registrada no depende de 0 
(Mo(0"/5), para la estadística arbitraria S, hablando en general, depende 
de 6). Al mismo tiempo, en virtud de las propiedades de la e.m.c., 03 es 
una función medible de S y, por lo tanto, también de X. Por consiguiente, 
6% es la estimación que satisface la propiedad 2) del teorema. 

La igualdad 


M93 = MoMa(0"/S) = Mob”, 
que demuestra que 83 € K», también se deduce directamente de las propie- 
dades de la e.m.c. Seguidamente, 
Mo(0" — 0) = Ma(0" — 0 +03)” = Mo(03 — 0)? + Mal0” — 037 + 
+ 2M0(03 — 0N0" — 03). 
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Utilizando de nuevo las propiedades de la e.m.c., obtenemos 
Mo(05 — ONO" — 03) = MoMbl(05 — 0X0% — 03)/8] = 
= Mol(03 — 8)Ma(0" — 03/5)] = 0 
y, por consiguiente, 
Mo(9* — 0)? — Ma(03 — 0)? + Ma(0" — 03. < 


En realidad, la desigualdad 3) del teorema 1 se puede obtener directa- 
mente de la propiedad de la e.m.c., (M(E/S)P < M(Ẹ°/S), ya que entonces 


(03 — 0) = [Mo(0" — 8/5) < Mol(6" — 0/5), 
Mo(03 — 0)? < Ma(0" — 9). 


El hecho expuesto en el teorema 1 puede interpretarse del modo siguien- 
te. Supongamos que S y T son dos estadísticas suficientes, 9* = p(T) y S 
está subordinada a 7; entonces Me(93 — 0)” < Ma(0" — 0). 

Con otras palabras, cuanto más “económica” sea la estadística suficien- 
te S (o cuanto más pobre sea la o-álgebra correspondiente), tanto mejores 
serán las estimaciones Os. Así pues, para construir las estimaciones óptimas 
debemos buscar las estadísticas suficientes mínimas (o las o-álgebras mini- 
mas). En este caso, en calidad de estimaciones iniciales 9” también pueden 
figurar estimaciones “malas” que no poseen, por ejemplo, incluso propie- 
dad de validez. En este sentido es aleccionador el siguiente 

Ejemplo 1. Sea X € Th. La estimación A” = xı, evidentemente, no está 
desplazada MA” = Mx; = A (bì = 0) y no es válida, ya que no depende 
de n. La estadística suficiente mínima de A es la estadística S = nx = Dx. 
Del ejemplo 12.1 se deduce que la distribución xı condicional respecto a 
S es la distribución Bj, en el esquema de Bernoulli, con una probabilidad 
de éxito igual a 1/n: 


Pu =k/S =s) = aky ( al y” 


Por consiguiente, 


x NA. 
A$ = M(x1/5) = Zaf) ( -D dz 


kai 


En uno de los ejemplos ulteriores demostraremos que X es una estima- 
ción eficiente. 

2. Caso multidimensional. Ahora obtendremos los análogos del teorema 
1 para el caso multidimensional cuando 0 y 6” son vectores de R*, 

Al igual que en el caso unidimensional, el vector b(0) = Mo0* — 0 será 
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el desplazamiento de la estimación 0*, y por K, designaremos la clase de 
todas las estimaciones con desplazamiento b. 


Teorema 1A. Sea S una estadística suficiente y 8° € Ks. Entonces la esti- 
mación 03 = Mo(0*/S) posee las propiedades 

1) 03 € Ko. 

2) 03 depende exclusivamente de S(X), 

3) la dispersión estándar de 03 no supera la dispersión estándar de 0* 
o bien, que es lo mismo, para cualquier vector a € R* 


Mo(93 — 0, ay < Ma(0" — 0, ay. (0) 


Aquí, la igualdad (para todos los valores de a) es posible únicamente en 
el caso de 0* = 03 cd. respecto a Po. 


Demostración. Las primeras dos afirmaciones son evidentes. Las desi- 
gualdades (1) se deducen del teorema 1, puesto que todo se reduce al examen 
de las estimaciones unidimensionales (9”, a) del parámetro (6, a), y Mo[(0*, 
a)/S] = (03, a). Si en (1), para todos los valores de a es válida esa igualdad, 
entonces, para cada a tendremos (93, a) = (6*, a) c.d. Esto precisamente 
significa que 03 = 0° cd. a 

Ahora bien, en el caso multidimensional, las estadísticas suficientes de- 
sempeñan el mismo papel: la forma cuadrática Yjoya:ay, donde o” = Joy) 
es la matriz de segundos momentos para 93 — 6, será tanto menor cuanto 
menor sea la o-álgebra de a(S) engendrada por S. 

3. Estadísticas completas y estimaciones eficientes. Ahora citaremos un 
criterio muy simple del inmejoramiento de las estimaciones, basado en el 
concepto de plenitud de la característica S. Designemos por / la dimensión 
de la característica S. Esta suele ser mayor que la dimensión k del paráme- 
tro 8 o igual a ésta. 

Para dos funciones medibles fi(s) y fz(s):R'=RY escribiremos 
Js) = f(s) cd. [4], donde Pes la familia de distribuciones en (R', B') 
si f(s) = fa(s) en todas las partes excepto el conjunto N tal que P(N) = 0 
para todas PER 

Definición 2. La familia de distribuciones .7= (Gs) en (R', B'), que 
dependen del parámetro k-dimensional 9 € © C R*, se llama completa si 
la igualdad 


[y(5) = Golds) = 0 cuando todos 6 € O (6) 


conduce a y(s) = 0 cd. [4]. La ecuación (2) se examina en la clase de fun- 
ciones y: R'>R* para las cuales existe la integral (2). 

Definición 3. La estadística S se denomina completa si la familia 4 de 
sus distribuciones Ge, inducidas por la distribución Po en (2”, BZ), es 
completa. 
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La ecuación (2) para las estadísticas puede ser escrita en forma de 
Moy(S) = O para todos 8€ © CR. 


Teorema 2. La estadística S es completa si y sólo si para cualquier bo(0), 
la o(S)-medible ° estimación 0” es única en la clase de todas las «(S)- 
medibles estimaciones de Kb. 

Si la o(S)>»medible estimación es única en Kb, entonces las a(S)- 
medibles estimaciones también poseerán la propiedad de unicidad en cual- 
quier otra clase Ko. 


La demostración de esta afirmación es casi evidente, ya que la existencia 
de dos o(S)-medibles estimaciones 6? = p1(S) y 63 = p2(S) en Ko, significa 
que fø(s)Golds) = bo(8), i = 1, 2, 


flior(s) — pa(s)IGa(ds) = O para todos 0 € ©, 


así que la plenitud de S conduce a 1(s) = p2(s) cd. [9]. Al contrario, 
sea. [y(s)Go(ds) = 0 para todos 9€0, Oj = pı(s)€ Ko. Entonces 03 = 
= pi(s) + y(s) € Ko, y la unicidad de la o(S)-medible estimación significa 
que (5) = 0 cd. [4]. a 

Teorema 3. Si la estadística suficiente S es completa, y 8° € Ks, entonces 
la estimación 03 = Mo(0"/S) es la estimación eficiente única en Kb. 

Este teorema nos ofrece criterios suficientemente simples de eficacia de 
las estimaciones. 


Demostración. En virtud del teorema (2), la o(S)-medible estimación 
en la clase Ko es única. 

Sea 0”* cualquier otra estimación de K». Entonces 03 = Mo(0**/8) € Ko 
y por lo tanto, 03 = 03 cd, [4]. De aquí y del teorema 1 se desprende que 


Mo(03 — 07 = Ma(05" — 0)? < Mo(0”* — 0}, 


y la igualdad es posible únicamente para 0% = 0$ cs. a 
Corolario 1. Si S es una estadística suficiente completa, y 0* es una esti- 
mación no desplazada, entonces 03 es una estimación eficiente y es la única. 
Ejemplo 2. En el ejemplo 1, con distribución de Poisson, hemos obteni- 
do que para A* = xı 


A5 = Ma(u/5) = 


donde S = nx. Mostremos que S es una estadística completa y, por consi- 
guiente, X es una estimación suficiente. La ecuación (2) para la estadística 


> O sea, medible respecto a la o-álgebra de ofS) engendrada por $ y, por lo tanto, repre- 
kentable en forma de p(S), donde p es la función de Borel. 
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S tiene la forma 


= k 
S poe- -XL = 0 cuando todos à > 0, 
keo Ñ 

o, que es lo mismo, 


wo = Py) a = 0 para todos z > 0. o 


Es evidente que esto conduce a y(k) = 0, ya que de la convergencia de la 
serie (3), digamos, cuando z = 1 se deduce que v(z) es analítica cuando 
Iz|< 1 y es idénticamente igual a O. Por consiguiente, los coeficientes y(k) 
de su desarrollo en serie son iguales a 0. 
Ejemplo 3. Sea X € Uo,e. Mostremos que la estadística S = xm = 
= máx xı es completa. La suficiencia (y minimización) de S ha sido estable- 
en 


cida en el ejemplo 13.2. La distribución de S se define por la igualdad 
P(S < $) = (5/0, 0<5<0, 


así que S tiene una densidad igual a ns””*9”" cuando s € [0, 0]. En este 
caso la ecuación (2) tiene la forma 


. a 
po 257 ds = 0 cuando 0€ (0, co), 


7 
De la igualdad pus "ds = 0 para todos O resulta, evidentemente, que 


y (5957! = 0, y(s) = 0 cd. 
Le proponemos al lector que verifique si son completas las estadísticas sufi- 
cientes para otras familias paramétricas y, en particular, que determine si 


=i ( = 3) es la estimación eficiente única del parámetro œ de la 


familia F,, (véase $ 2). 

Señalemos ahora que el teorema 3 muestra la existencia de relaciones 
entre los conceptos de amplitud y minimización. En este aspecto es válida 
la afirmación siguiente, que da, junto con los teoremas del $ 13, el criterio 
de minimización de las estadísticas suficientes. 


Teore: |. Cualquier característica suficiente completa S es una estadís- 
tica suficiente mínima. 


Demostración. Sea Uo una o-álgebra suficiente mínima (según el teore- 
ma 13.1, ésta existe). Supongamos que MaS existe y examinemos la función 
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Y = S — Ms(S/Uo). Como Uo C a(S), entonces y será o(S)-medible, así que 
Y = WS). Designemos por Ge la distribución de S. Entonces es evidente 
que para todos 4, Mey(S) = 0 o, que es lo mismo, 


[Ws)Ge(ds) = 0 para todos 06 ©. 


De aquí, en virtud de la amplitud de S resulta que y(s) = 0 cs. (4), 
S= (Go). Esto significa que S = Me(S/Uo) c.d. 4] y, por lo tanto, S es 
medible respecto a” lo, a(S) = Uo. 

Si MaS no existe, es necesario, en vez de S, examinar la estadística 
arctg S, la cual es, evidentemente, equivalente a S en cuanto a las propieda- 
des de suficiencia, amplitud y minimización. < 

Señalemos que la afirmación inversa no es cierta: la estadística suficien- 
te mínima no es obligatoriamente completa. Los ejemplos respectivos se 
obtienen fácilmente en los casos en que la dimensión / de la estadística 
es mayor que la dimensión k del parámetro 0. Por ejemplo, en el $ 13 hemos 
visto que la densidad compatible de la estadística suficiente mínima 
S = (xa) Xom) para la familia Us,1 +o es igual a 

= frln— Dí — uy"? cuando u>0,v<1+0,v>u, 
gou o) = le en los demás casos. 


Si se toma la función y(u, v) = p(v — u) y se hace la transformación 
ortogonal (v — 19/12 = £, (v + u)/VŽ = z, la integral en (2) por el triángu- 
lo u>0, v < 1+9, v >u) será igual a 


, 
[ru vdgolu, vidudu = n(n — Dpto" — «ax. 
è 


Es evidente que la integral en el segundo miembro no depende de 0 y es 
fácil elegir la función p(x) 0 que la reduce a cero. 
$ 15. Familia exponencial 


Supongamos que 0 = (61, ...,0x) esun parámetro k-dimensional y que 
la densidad f(x) es representable en la forma 


i 
140 = hò apf Lau + vo), w 


donde todas las funciones que entran en el segundo miembro son finitas 
y medibles. 


* Por Uo aquí es necesario entender la o-álgebra completada por los conjuntos N, para 
los cuales P(N) = O para todos 8. 
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Definición 1. Las familias de distribuciones {Pe}, con densidad de este 
género, se llaman familias exponenciales y se designan con el símbolo & 

Para hacer que la representación (1) sea, en la medida de lo posible, 
unívoca, supondremos que las funciones a(b) = 1, ar(0), ...., ax(0) son li- 
nealmente independientes en ©. 

Como veremos, las familias exponenciales ocupan un lugar especial en- 
tre las familias paramétricas de distribuciones, ya que para ellas muchas 
construcciones generales de la estadística matemática pueden ser realizadas 
en forma explícita. 

A veces se llaman familias exponenciales las familias de distribuciones 
de tipo más particular ”, cuando ay(6) = 6y. 

A las familias exponenciales pertenecen, por ejemplo, las familias de 
distribuciones {a.o}, (MJ (Bp),(Fa,a] y una serie de otras. 

Ejemplo 1. Examinemos la distribución T'«,,. Su densidad ya,1(x) se 
puede representar en la forma 


CA o 
109 = gy PT expa Inx — ax + In ip >o 


así que aqui se puede poner 


Ux) = Inx, W(x) = x, Vla, X) = In 


HA 
TO * 
ala, N= ma, M=-a < 
La función de verosimilitud para X € P€S es igual a 
54%) = Ep1 Cal), S) + NVO 460, 


donde 
a(9) = (a (0), ..., ax(0), S= (Si, -.., Se), 
S= 900 = 2 Uju), 
(a, S) es el producto escalar, De aquí y del teorema 12.1 resulta que S es 


una función suficiente para $. Demostremos que S es una estadística sufi- 
ciente mínima. 


* En realidad, esto es lo mismo; llegaremos a una forma particular si realizamos la tran- 
sformación biunivoca y = y(0), y = Yı ..., a) sobre el parámetro 6, poniendo y, = a/(0). 
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Como las funciones a;(8), U(x), V(8) son finitas, la exponencial en (1) 
es siempre positiva. Esto significa que en calidad de distribución Q en el 
teorema 13.1 (con la que todas las Ps son absolutamente continuas respecto 
a Po = (P:Q(dt)) se puede tomar la distribución concentrada en cualquier 
punto fijado 6%. Por eso, del teorema 13.1 se deduce que la o-álgebra de 
Vo engendrada por la función 


rx, 0 = Aa = expt (a(0) — a(0), S) + n(V(0) — V(0°))) 


es la o-álgebra suficiente mínima. 
Teorema 1. La estadística S es una estadística suficiente mínima. 


Demostración. De la independencia lineal de las funciones 1, a1(6), ..., 
ar(0) en O se deduce la independencia lineal a,(0) — ar(0), ..., 
ax(0) — ar(6*). Esto significa que en O hay k puntos 9l, ..., 0 tales que 
los valores ay = a(0) — a(6%) forman una matriz A cuya determinante se 
distingue del cero. Esto significa, a su vez, que las ecuaciones (a(9/) — a(9%), 
S) = Inr(X, 0) — n(V(0) - VB), j= 1, ..., k, son solubles unívoca- 
mente respecto a S y, por lo tanto, a(S) C o(r(X, 0); j = 1, ...,k) C Uo. < 

En el ejemplo 1 hemos examinado la distribución T y establecimos que 
para ésta es válida la representación (1) cuando 0 = (a, » con las funciones 


U(x) = Inx, U(x) = x, 
ala, N) = A, mla, A = -a 


Es evidente que las condiciones del teorema 1 se han cumplido y que la 
estadística S = (Dlnx, Ex) o bien, que es lo mismo, la estadística (TIx;, 
Exi) es una estadística suficiente mínima. 

Si reforzamos un poco las condiciones del teorema 1, entonces la esta- 
distica S será una estadística suficiente completa (en este caso la minimiza- 
ción de S se podría obtener como consecuencia de la plenitud). 


Teorema 2. Sea X € PE£ Si la función a y el conjunto O son tales 
que a(0) traza un paralelepipedo k-dimensional cuando 0 recorre O, enton- 
ces S es una estadística suficiente completa. 


Es evidente que las condiciones del teorema respecto al paralelepípedo 
se cumplirán si el conjunto O es “sólido”, es decir, si contiene los puntos 
interiores. (y junto con ellos también las esferas en R*, de radio bastante 
pequeño) y si en el entorno de cualquier punto “sólido” 8%, las funciones 
49) son linealmente independientes y suaves. Entonces la transformación 
a = a(6) transfiere el entorno del punto 9” al conjunto sólido. 

Es evidente que el ejemplo 1, con la distribución F, satisface las condi- 
ciones del teorema 2, ya que la estadística (Tlx,, Ex) es completa. 
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De un modo igualmente sencillo, el lector puede comprobar que para 
la distribución normal ®a,o?, la estadística (Èx, Zx) también es una 
estadística suficiente completa. 

Demostración del teorema 2. En nuestro caso las funciones yis, 6) y 
h(x) en el teorema de factorización de Neyman — Fisher son iguales a 


WS 0) = expl (a(0), s) + nV(0)), 
hoo) = TI hteo. 
Examinemos en (R*, 8*) la medida que no depende de 6; 


»(B)= | AO4do, 
si 
donde S”'(B) es el conjunto de todos los x para los cuales S(x) € B. 

Destaquemos en forma de lemas, las dos siguientes afirmaciones auxi- 
liares. 

Lema 1. La distribución Go(B) = PA(S(X) € B) de la estadística S es | 
absolutamente continua respecto a v, y en el punto s tiene una densidad ` 
igual a yAs, 0). 

La demostración se deduce de la igualdad 


GHB)= | YSO) DAK" dx)= | Ys Ovids), 
SB sB 


la cual es consecuencia de la sustitución de las variables. < 

Lema 2, Sean Gi 2.S dos medidas o-finitas en (RE, 8%). En este caso, 
si |e“ Gi(du) = [el*9G,(du) existen para todos los valores de a de cierto 
paralelepípedo I en R*, entonces Gi = G2. 

Demostración. Para simplificar los razonamientos examinemos el caso 
unidimensional k = 1 y supongamos que 7 = (x:/x|< a). Entonces 


ha) = fe™G(du), j= 1, 2, 


son funciones analíticas cuando [ds a. Además, para todos b€ R están 
definidas las funciones Akz) = [el**'PG,(du) de la variable compleja 
z =a + ib. Naturalmente que pii serán analíticas en la franja de Ja|< a, 
-0<b<o. Como hz) = ha(z) en el segmento de la recta b = 0, 
la| < a, entonces hr(z) = ha(z) para todas z de la franja indicada. Por lo 
tanto, 


fe™Gi(du) = je*“Ga(du). a) 
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Señalemos que en vista de que A;/(0) = [G/(du) < ©, podemos considerar 
que G,son medidas probabilísticas. Del teorema de la correspondencia biu- 
nívoca entre las funciones características y las distribuciones [11], así como 
de (2), resulta que G, = G2. 

Si el paralelepípedo 1 tiene la forma (x:|x — œo| < œ}, entonces conviene 
pasar a las medidas Gj(du) = e-"Gy(du). 

En el caso multidimensional X > 1, la demostración se realiza exacta- 
mente igual. < 

Ahora podemos pasar directamente a la demostración del teorema 2. 

Debemos demostrar que si y es una función medible en (R*, B*) y existe 


[o(s)Gewds) = 0 para todos 0€ ©, (3) 


entonces p(s)=0 cd. [4, 4= (Golo. Sea p=p* — 
p* >0. En este caso, de (3) se desprende fø* (s)Gu(ds) = jp” (s)Go(ds) 
o bien, en virtud del lema 1, 

e* (5, Ovids) = |ø (MS, Ovids), 

pt eds = (p (e Mids). 


Si formamos las medidas o-finitas v* (ds) = ø* (s)v(ds), obtendremos 
fet v* (ds) = fety- (ds) 


para todos los valores de a de cierto paralelepipedo en R*, Sólo nos queda 
hacer uso del lema 2. < 

Corolario 1. Sí X € P € £, 9” € Ko y se cumplen las condiciones del 
teorema 2, la estimación 0% = M(0"/S) es la estimación eficiente en Ko. 


$ 16. Desigualdad de Rao — Cramer y 
estimaciones R-eficientes 


1. Desigualdad de Rao — Cramer y corolarios. Los resultados de los 
párrafos precedentes nos proporcionaron varios criterios de eficacia de las 
estimaciones. Sin embargo, estos criterios tenían, en cierto sentido, un ca- 
rácter cualitativo, En este párrafo continuaremos el estudio de la cuestión 
acerca de las estimaciones eficientes, pero desde un punto de vista un poco 
diferente. Aclaremos, ante todo, cuál es el valor mínimo del error estándar 
que se puede obtener. 

Al principio examinaremos el caso unidimensional cuando 0 es un pará- 
metro escalar. Con respecto al conjunto 6, para precisar vamos a suponer 
que eso es un intervalo finito o infinito, cerrado o abierto. 


11—8030 
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Para responder a la pregunta planteada necesitaremos las condiciones 
de regularidad en fs(x). Sea, como antes, 


10% 0) = Info, LOG O= Exi 0), a(0) = Mel” = 0 + B(0). 


Supongamos que se ha cumplido la condición (R). Las funciones 
vfa) para c.t.[u] valores de x son continuamente derivables respecto a 
09€ 0, y la integral 


10) 9 | PE aso = Malon 0 w 


existe y es positiva y continua según 0. (Aquí y en lo sucesivo, la tilde signi- 
fica la derivación respecto a 0). 

Con arreglo a la integral (1) es necesario señalar lo siguiente: Si x, junto 
con su entorno, no pertenece al portador Ne, = [xi fo(x) > 0) de la distri- 
bución Po, entonces la función subintegral (fé(x))*/fo(x) se convierte en 
indeterminación de tipo 0/0. Convendremos en considerar esta razón igual 
a cero. Seguiremos esa misma regla en cuanto a la derivada /'(x 
0) = fé(x)/fo(x), al integrarla. Podríamos no hacer estas restricciones si des- 
de el principio eximinaramos las integrales de la forma de Mog(x1, 6) sólo 
en la región de Np,. 

La función /(0) es conocida con el nombre de información de Fisher 
y desempeña un papel muy importante en la matemática estadística, ade- 
más, en lo sucesivo tropezaremos repetidas veces con ella. Algunas propie- 
dades de la función /(0) se examinan en $ 17. 

Si el conjunto O es compacto, la continuidad de 1(0) en las condiciones 
(R) es equivalente a la condición 


sup Mo((/'(x1, DP; (1'(x1, O> N) > 0 
aÒ 


cuando N — œ, la cual se puede llamar convergencia uniforme de la inte- 
gral 1(6) (véase el Suplemento VI). 

Tiene lugar la siguiente desigualdad para la varianza de las estimaciones 
0* con desplazamiento b. 


Teorema 1 (desigualdad de Rao — Cramer). Si 8° € K y si está cumplida 
la condición (R) y Ma(8*} < c < œ, entonces 
e > I + b0? 
E a 


Si en dicha desigualdad se alcanza igualdad en cierto segmento 0 € (01, 
07] C O, y De6” > 0 en ese segmento, entonces la función de verosimilitud 
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JAX) para 0€ 161, 02] es representable en la forma 
SAX) = expl0'A(9) + BO) MX), 6) 


donde A(0), B(8) no dependen de X. 
Al contrario, si 9” = const, o si es válida la representación (3), entonces 
en la desigualdad (2) se alcanza igualdad. 


Evidentemente, la condición (3) significa que la distribución en 2" con 
densidad fo(x) pertenece a la familia exponencial £. 
Corolario 1. Si se cumplen las condiciones del teorema 1, 


Mo(0" — 07 > O + 050). 


Para cualquier estimación no desplazada 8", 


e 2 
Ma(0" — 0 > ANO * 


Así pues, en las clases K, el valor mínimo posible de las desviaciones 
estándar es distinto de cero y se define por los segundos miembros de las 
desigualdades escritas. 

Observación 1. En cuanto a la condición Mo(0")? < e < œ se puede no- 
tar que cuando Ma(9") = œ se cumple Ds0 = co y la desigualdad (2) se 
vuelve trivial. En virtud de (2), la condición Do > O se puede sustituir 
por (1 + b*(6)? > 0. 

Observación 2. A la par con la condición (R) se pueden señalar algunas 
otras condiciones que aseguran la afirmación del teorema 1 y que se distin- 
guen muy poco una de otra. Nos hemos detenido en aquellas de ellas que 
nos serán más cómodas en los párrafos posteriores. Las condiciones de 
tipo algo diferente se citarán en el $ 22. 

Necesitaremos una afirmación auxiliar. 

Lema 1. Supongamos que se ha cumplido la condición (R) y que 
S = S(X) es cualquier estadística para la cual MaS? < c < «o cuando 9 € O. 
Entonces la función 


as(0) = MoS = | SAY AA (dx) (4) 
es derivable respecto a 0, además 
as(0) = [SCYVé)u" (dx) = MeSL'(X, 8). (5) 


Esta afirmación tiene carácter técnico y su demostración dificultaría 
considerablemente las investigaciones. Por eso hemos pasado la demostra- 
ción del lema 1 al Suplemento VI. 


1 
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Demostración del teorema 1. Poniendo en (5) S= 1, obtenemos 
as(0) = 1, 


MoL’ = 0, Moa(®)L’ = 0. (6) 
Volviendo a utilizar (5) para S = 0” y (6), obtenemos 
Mo0"L' = a' (8), Mo(0" — alL" = a” (0). Y) 
Según la desigualdad de Cauchy — Buniakovski, 
(a (0)? < Mal0* — a(0) Mell}? (8) 
o bien, que es lo mismo, 
Dot > OL A e y 9 


Como las variables aleatorias } = 1'(xy, 0) son independientes, están 
igualmente distribuidas y tienen, en virtud de (6), una esperanza matemáti- 
ca nula, Mol, = 0, entonces Moli); = O cuando i # j, 


3 
MoL’? = m (31) = EMoll = nMi = n10), 


Junto con (9) esto demuestra la desigualdad (2). 

Demostremos ahora la segunda afirmación del teorema. Para simplifi- 
car la demostración consideraremos que © coincide con [61, 02] y que la 
medida y está concentrada en la unión de los portadores de Po, 6 € ©. El 
signo de igualdad en (2) (o en 8)) quiere decir que 


sn 
jo - aona [fe - cora OE maw] 


para todos 0 € ©. En vista de que la primera integral en el segundo miembro 
es positiva, la igualdad escrita sólo será posible si 


SANTA = (OXO — ADVA cto la”. (0) 
Designemos por A el conjunto de x para los que está cumplida (10) y 
[0*| < œ. Entonces (A) = 0 (A es el complemento a A). Anotamos x € A. 


En virtud de la continuidad fo(x) en 0, tendremos f(x) > O en cierto inter- 
valo (fi, f2) C O, y en este intervalo, en virtud de (10), 


L'(x% 6) = cl6x0" — a(6). a 
Señalemos ahora, que de (7), (11) y (2) resulta 
a'(0) = Ma(0” — a(0)L” = c(0)D:0”, Dro” = ON a9 


TON 
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así que Do0” es continua en 8 junto con a'(9), 1(6), y [c(6)| junto con a(0) 
están limitadas uniformemente en [9,, 92]. La derivada L’ (x, 0) en (11) posee 
esa misma propiedad. Pero esto significa que L(x, 1) es finita y que 
Sa(x) > O en todas las partes de O = [6,, 02], así que (11) es válida para 
todos 0. Integrando (11) dentro de los límites de 6, y 0, obtendremos 


. 4 
Lx 0) =0" f cldt — [edad + L(s 01), 
i L 


que es equivalente a (3) para [u"] ct. x. Como la variación fa(x) en el con- 
junto de la ¡”-medida O no tiene importancia, (3) queda demostrada. 

Examinemos ahora la última afirmación del teorema, Si 9* = const, en- 
tonces b'(0) = —1 y ambos miembros de la desigualdad (2) se anulan. Su- 
pongamos que se ha cumplido (3). Entonces, derivando la función L(X, 
0) respecto a 6, obtendremos 


L'(X, 0) = 0°A' (0) + B'(0). 
De (7) se deduce que a(9)4 '(6) + B*(0) = 0. Por eso 
LUX, 6) = A*(010" — a(0) 


y, por consiguiente (véase (10), en (2) se alcanza la igualdad. < 

En lo sucesivo excluiremos de las investigaciones el caso trivial 
6” = const y supondremos que D+9* > 0 en todas las partes de O. Entonces 
es válido el 


Corolario 2. Si se cumplen las condiciones (R), para alcanzar la frontera 
inferior en la desigualdad de Rao — Cramer es necesario y suficiente que 
la estimación 0* sea suficiente y que la función yx0*, 0) en la igualdad de 
Jactorización tenga la forma 


w0", 0) = expl0*A(0) + BO), 
donde A(0) y B(0) son funciones derivables. 
Corolario 3. Si se cumplen las condiciones (R), 8° € K», y en la desigual- 
dad de Rao — Cramer se alcanza igualdad, entonces 0” es una estimación 


eficiente en Kb. 
Esta afirmación se deduce de la representación 


Ma0" — 0 = Do8" + b?(0). 


Señalemos que, hablando en general, lo contrario no es cierto: la estimación 
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U + b 0 


puede ser eficiente en Ko, pero la frontera inferior O) 


para 


la varianza puede no alcanzarse. E 

Ejemplo 1. Sea X € T..:. Aquí fa(X) = ale” “*, Las condiciones (R) 
en la región O S [a >ô > 0) están cumplidas. Es evidente que S = nX es 
una estadística suficiente completa. Por eso la estimación 
a =X"! = Ma~ '/S) es eficiente en la clase K» con un desplazamiento 
bla) -~a 


Notemos ahora que S € Fa.n, asi que cuando n > 1 (véase el $ 2), 
n 


M.x 7! = nMaS™' = a. 


Ahora bien, la estimación o =a(i -3 no estará 


desplazada cuando n > 1. Análogamente, cuando n > 2 hallamos (véase 
el § 2 y también ejemplo 4.1) 


Mala"? = (n — DPMS? = ZZL o, 


ezafa=1 _ oè 
van- e[it i] - 


n=-2' 
Así pues, cuando n > 2, la estimación a”* es eficiente. Sin embargo, el crite- 
rio (3) no se ha cumplido, ya que 
FAX) = 07 "eat Iva”, 


Por consiguiente, en la desigualdad de Rao — Cramer no se alcanza la 
frontera inferior. De esto también podemos convencernos directamente. En 
efecto, aquí I(x% a) =In a — ax 1(x a)=1l/a—xe 


1 A A E! 
, 2 
Ka) = Mall’ (xi, a)? = Ma 2-0) “ESE VER 
Por lo tanto, cuando 7 > 2, 
2 
1 E ziyat 


ni n S n-a 


Ahora bien, el logro de la frontera inferior en (2) es una exigencia más 
severa que el logro de la eficacia. 

2. Estimaciones R-eficientes y asintóticamente R-eficientes. Suponga- 
mos que se han cumplido las condiciones (R). En este caso, el logro de 
la frontera inferior (exacto o asintótico) para la varianza en la desigualdad 
de Rao — Cramer puede ser un índice muy importante de la calidad de 
las estimaciones, íntimamente ligado al concepto de eficacia, 
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Definición 1. La estimación 0* € K», para la cual 
“ga ADO 
Mo 0 +, 


se llama Reeficiente (o regularmente eficiente) en la clase Ks. 

La estimación R-eficiente en la clase Ko de las estimaciones no desplaza- 
das se denomina simplemente R-eficiente. 

La estimación 0* se denomina asintótficamente R-eficiente (a.R-e.), si 


PEO) 
MO Y y 

Vemos que a diferencia de las definiciones del $ 8, que tenían un carác- 
ter más cualitativo, las definiciones de R-eficacia se basan en la compara- 
ción con los valores numéricos conocidos, relacionados principalmente con 
la información de Fisher, mejor dicho, con la cantidad (n/(0))7 

Para la R-eficacia de 0” es necesario y suficiente el cumplimiento. de (3). 

De lo dicho más arriba se deduce que las estimaciones R-eficientes son 
eficientes, pero no al revés; las estimaciones R-eficientes simplemente exis- 
ten con menos frecuencia, lo cual no es un defecto de las estimaciones, 
sino de la frontera inferior en la desigualdad de Rao — Cramer, 

En los actuales manuales de estadística matemática, las estimaciones 
R-eficientes se llaman simplemente eficientes. No obstante, creemos que 
es más natural conservar el término «eficacia» para las mejores estimacio- 
nes en un sentido más amplio (véase la definición 8.1). 


Teorema 2. Si se han cumplido las condiciones (R) y existe la estimación 


R-eficiente, entonces esta última coincide con la estimación de verosimilitud 
máxima. 


Demostración. Ya hemos visto que el cumplimiento de (3) conduce a 
la igualdad (véase (11)) 


L’ (X, 0) = (8° ~ 0)c(0). 
Además, como b(9) = 0, de (12) resulta 
c(0) = 1/D90* = nI(0) > 0 


para cualesquier 0 € O. Esto quiere decir que £'(X, 9) < 0 cuando 
y que L'(X, 6) > 0 cuando 9 < 6”. Por consiguiente, cuando 0 = 
canza el máximo L(X, 6). < 

El ejemplo 1 citado más arriba muestra que, a diferencia de las estima- 
ciones R-eficientes, las estimaciones eficientes pueden no coincidir con las 
ev.m. En este ejemplo, la e.v.m. es (X)7 ?, mientras que la estimación eficien- 


A A 
se al- 
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n 


i 
te es igual a —- 


estimaciones a.R-e. 
Examinemos la clase Řo de las estimaciones 6”, para las cuales, cuando 
no, 


(6) 7 !. Estas dos estimaciones son, evidentemente, las 


IDOS E(0, n)/Vn, |b"(0)|<e(6, n), 
Mo Y < c < œ 


para cierta función (8, n) = o(1) cuando n= y cuando cada 9 € ©. 

Cada una de estas clases es notable por el hecho de que para ella la 
frontera inferior en la desigualdad de Rao — Cramer tiene la forma 
(1 + o(1))/(11(0)]. En el $ 20 veremos que en una serie de casos, al hallar 
las estimaciones asintóticamente óptimas, es posible limitarse al estudio 
de las estimaciones 0* de tales clases. 


“Teorema 3. Supongamos que se han cumplido las condiciones (R). En- 
tonces, cualquier estimación a.R-e. de Ro es la estimación. ae. en Ko. 


La demostración del teorema es evidente: si 6] es la estimación a.R-e,, 
entonces 


e 0? 140) 
Mo(0i — 0° O * 
Además, como ya hemos señalado, según la desigualdad de Rao — Cramer, 
para todos 9*€ Ko, 
lim inf Men(0" — 0)? > 1710) = lim Moni — 0. < 

También está claro que si existe la estimación a.R-e., cualquier estima- 
ción ae. en Ño será la estimación a.R-e. 

Más tarde (véase el $ 25) veremos que con ciertas suposiciones adiciona- 
les, las estimaciones a. R-e. existen siempre y, por consiguiente, la afirmación 
del teorema 3 también es válida en dirección inversa: la estimación a.e. en 
Ro es la estimación a.R-e. o sea, para ella Ma(9” — 0)? —|n1(0)|7*. 

Teorema 4. Supongamos que se han cumplido las condiciones (R). Si 


61, 03 pertenecen a Ro y son las estimaciones a.R-e., ellas son asintóticamen- 
te equivalentes en el sentido siguiente: 


vai — 03) > 0. 
P 
La demostración de esta afirmación se efectúa exactamente igual que 


en el teorema 8.2. Como 0* = (0] + 03)/2 € Ko, entonces, basándonos en 
(8.11) y en la igualdad de Rao — Cramer, obtenemos 
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lím sup Men(9j — 83 < 0. < 

Ejemplo 2. La estimación a” = X del valor medio æ de la población 
normal $4, para o” conocida es la estimación R-eficiente. Es fácil con- 
vencerse de esto, comprobando, por ejemplo, la condición (3). Otra posibili- 
dad consiste en comparar Daa’ =0*/n con el valor mínimo posible 
(n1(a))7 * de las varianzas de las estimaciones no desplazadas. En nuestro 
caso, 

ls, a) = -In Y2x o — (x — a)'/(Qo?), 
lx% a) = œ = a/a, 
Ka) = Mall’ (%1, a)? = Mal — a)?/o" = 1/0, 

así que Daa’ = (ni(0))7* = 0/n. 

Ejemplo 3. Examinemos la estimación 0* = Si =l $ (a - a) del pa- 

ta 


rámetro 0 = o? de la población normal con « conocido. No es difícil calcu- 
lar que De0* = Mo(0* — o?) = 20*/n. Por otro lado, aquí 


ra o=- t, 


100) = Ml (i, OP = ge Mola — a)? = OP = ir = — 


Ahora bien, aquí también D40" = (12(9))”, y la estimación 0° = Si 
es Reeficiente, 

La varianza de la estimación no desplazada 53 =- 17 Pu - 3} 
, así que la misma no es Reeficiente o simplemente no 


es igual a EY] 


es la estimación eficiente de o”. Al mismo tiempo es evidente que Si es 
la estimación a.R-e. 
Si en calidad de parámetro desconocido estimamos no a? sino $ = o, entonces no obten- 


dremos la estimación R-eficiente. Sin embargo, la estimación no desplazada de o será la esti- 
mación 
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arei 


ms 22 Moo = o. 


O 


Como S es la estimación suficiente completa y mínima, o” es la ción eficiente. Con 
ayuda de la fórmula de Stirling no es difícil convencerse de que o* = S(1 + O(1/m)). 
Comparemos ahora la magnitud D,o* con la frontera inferior (1/(0)”*. Tenemos 


se ED es"): E Jo 


Por otro lado, aquí 


ræs- 


o) = Maltai, DP = -i Melte = a? = PP = E, 


así que (n/(0))7* = @è/(2n). Pero este valor se distingue de (13). Su relación, por ejemplo 
para n = 3, es igual a 0,936. Ahora bien, aquí no hay estimaciones R-eficientes. Cuando n= 


el coeficiente de o? en (13) se comporta asintóticamente como = +0 , así que o* 


n 
es la estimación a.Ree. 


3. Desigualdad de Rao — Cramer en el caso multidimensional. En este 
apartado 9 = (01, ..., 0x) es el vector k-dimensional, al igual que también 
la estimación 6° = (8f » 0%). Como antes, pongamos 


al) = Mo0” = 0 + b(8), b(0) = (b1(0), ..., Dx(0) 
y examinemos las clases Kp de las estimaciones con un desplazamiento 
registrado b(0). 
La generalización de las condiciones (R) para el caso multidimensional 
tendrá el aspecto siguiente. Designemos 


1% 8) = log Ja), 14, D = 2 16% 0, 
168) = Moli, Dla, 0) 


y supongamos que se ha cumplido la condición 
(R). Las funciones ÍfAx) son derivables continuamente respecto a 0, 
para c.t. |u] valores de x. La matriz 


KO) = HAO, 
O) = JI NO Ofod) 
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es continua en 0°, y su determinante |I(0)| es distinto del cero. 

Como (9) es la matriz de segundos momentos Mol); de las variables 
aleatorias 4 = xı, 6), ella será una matriz definida positivamente, ya que 
para cualquier vector œ = (0%, ..., œx) 0 se cumple 


ZooMelily = Mo( Zi 2>0, 


donde la igualdad a cero se exluye por la condición |Z(8)| = 0. 

Como antes, por desigualdad entre las matrices o} > 04 entenderemos 
la desigualdad avia” > acía”para cualquier vector fila œ = (01, +.., 
ox) » 0. Esto equivale, evidentemente, al hecho de que la matriz oł — 04 
está definida de forma no negativa. La desigualdad estricta corresponderá 
a la definición positiva, así que, por ejemplo, 1(6) > 0. 

Teorema 1A. Si 9” € K» y si se cumple la condición (R), entonces para 
la matriz de segundos momentos ò = lay] = My(0* — a(ó)"(0* — a(0)) de 
cualquier estimación 0* del vector fila 0 es válida la desigualdad 


>L (E + DOPITUONE + DY, as 
donde E es la matriz ; unidad, D48) = lbu), by) = age. 


Sea |o}? > 0 (o bien |E + D(6)| > 0) para todos 8. En Sl caso el signo 
de Igualdad en (14) se alcanza si y sólo si la distribución de la muestra 


pertenece a una familia exponencial de tipo especial, o sea, cuando para 
ciertas funciones escalares B(0) y h(X) se cumple 


SAX) = exp[ (0°, A(O) + BODAD, (15) 
donde el vector A(0) = (A1(0), ..., Ax(0)) tiene una matriz de derivadas 
igual a 


lada [2] = nE + 0097770. 


Es evidente que para las estimaciones no desplazadas 0”, 

> (n10) ' 
y la igualdad es posible únicamente cuando se cumple (15), donde 
Mul = 100). 


Ahora bien, si logramos hallar la estimación no desplazada 8° con una 
matriz de segundos momentos [717(0)] ~, ella será una estimación eficiente. 


Para esto es suficiente exigir la convergencia uniforme de /1(0) (véase el Suplemento 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 0, 

En particular, llamaremas estimaciones a.R-e. las estimaciones 0* para 
las cuales 


Mo(0* — 00" — 0) = 0? + DYO)b(O) = (nE(O)”* + o(1/n). 
Aqui el análogo del teorema 2 tendrá el aspecto siguiente. 


Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0" 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 

Demostración. Para demostrar que la estimación R-eficiente constituye 
el único punto del máximo, es suficiente convencerse que Z'(X, 0°) = 0 
y que cuando 0 = 0" + u, u * 0, 

(grad L(X, 0), u) = (L'(X, 0), 9 — 6°) < 0. 


Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(0) 


L’ (X, 0) = (0* — 0100), 


de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 


(L”, u) = —unt(0yu7, 


donde u/(8)u” es la forma cuadrática definida positivamente. < 

Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 
normales $.,.. La misma pertenece a una familia exponencial, ya que 
(aquí 9 = (81, 02), 01 = a, 0 = 0?) 


Y a 1 z e 
O dl IS E 
Da- 


1a 
e. (- 32) es eficiente, puesto que pertenece a Ko, y 
la estadística (Jx, 2x7), como hemos visto en el $ 15, es la estadística 
suficiente completa (véase el teorema 14.4). 


La estimación 0* = (01, 03), donde 0j =X, 03 = $ = 
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Señalemos que 
Mo(0” — 0)7(0" — 0) = 0? + b7(0)b(0). 
Demostración del teorema 1A. Designemos 


1/=1/% 0 = Xl, 0), L' = L'O O = (Li, ... LO. 
A 


Entonces, de un modo completamente análogo al caso unidimensional, 
establecemos que son válidas las igualdades 

Molfx1, 8) = 0, MÓILAX, 0) = 1 + by) 
en las cuales by(0) son continuas o bien, que es lo mismo, las igualdades 


MoL’ =0, (16) 
Mo(0"L' = E + D(O) (17) 
en las que la matriz D(9) es continua. De aquí obtenemos | 
Mo(0" — a(6)L' = E + DO). (18) | 


Demnostremos ahora la desigualdad siguiente (variante matricial de la desi- 
gualdad de Cauchy — Buniakovski). 

Lema 2. Supongamos que Ẹ y y son matrices de igual dimensión (no | 
obligatoriamente cuadradas) con elementos aleatorios, y que la matriz 
Mnn” tiene inversa. Entonces 


MEE” > Mén"(Man")” "Mot". (19) 


En este caso la igualdad es posible únicamente cuando = zn, z = 
= Min (Mm) ~’. 

Demostración. En vista de que para cualquier matriz A es válida la 
desigualdad A4” > 0 (44” está definida no negativamente), entonces 


0 < MIE — 2nKE — zn)” = MEE — zM" — Mënz” + 2Mny?2”. 


Poniendo z = Mn” (Mm) ~ ', obtenemos la desigualdad requerida. 

La afirmación con respecto a las condiciones de la igualdad en (19) es 
evidente. < 

Volvamos a la demostración del teorema 1A. Pongamos, en (19), 
E = (0° — a(0))", y = (L'). Entonces 


Met” = Mo(0” — a(8))™(8" — a(8) = 0”. 
De (16) y de la desigualdad de x; obtenemos 
Menn” = ML’ YL’ = n1(0). 
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Por último, de (18) hallamos 
Metn” = Me(0” — (O) L' = E + D(O). 
La desigualdad (14) queda demostrada. 


La desigualdad en (14) es posible en virtud del lema 2, si sólo para los 
puntos (x 6), tales que fo(x) > 0, es válida 


(0 — a0)" = (E + DOMAIN) LY” 
o, que es lo mismo, 

L' = (8° — a(0)MUE + DIO)” IIO). (20) 

Nótese ahora que de la desigualdad en (14) resulta 

IE + DOJ? = njolo, 

y la separación del determinante |o?| de O quiere decir lo mismo para 
|E + D(0)| y significa la existencia de la matriz inversa (E + D(6))7! uni- 
formemente limitada. Por eso la derivada L’ en (20) será limitada, y 
falx) > O en todas partes de O y la misma igualdad (20) será válida en 


todas partes de ©. Si ahora s es cualquier camino que une los puntos 01 
y 0 en la región O, entonces 


LX 0) = |L’, ds) + L(X, 0), 
G 


donde ds significa el elemento vectorial del camino s; ((L”, ds) = (L”, 
s'(D)dl es el incremento L(X, 6) en dicho camino; y /, la «longitud» del 
camino recorrido, Por consiguiente, en virtud de (20), 


LX, 0) =0"A(0) + B(0) + HOO, 2) 


donde B@) y H(X) son funciones escalares; A(6) = (41(8), ..., Ax(0)) es 
un vector que depende exclusivamente de sus argumentos, Esto significa 
la validez de (15). 

Si se cumple (21), entonces 


L' = 9' Ay] + B'(0), 
donde, en virtud de la igualdad ML’ = 0, es válida 
B"(0) = — al0mAul. 


Multiplicando ambos miembros de la igualdad L’ = (9* — a(0))}Ay], a la 
izquierda en (9* — a(9))”, obtenemos, en virtud de (18), que para el cumpli- 
miento de la condición (20), que significa la igualdad en (14), debe cum- 


plirse 
Mul = nE + DO)” ITIO. < 
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En el caso multidimensional conservan su validez todas las observacio- 
nes hechas con arreglo a la desigualdad unidimensional de Rao — Cramer, 
así como la definición de R-eficacia, en las que deben introducirse tan sólo 
las modificaciones evidentes relacionadas con la dimensión de 0. 

En particular, llamaremas estimaciones a.R-e. las estimaciones 0* para 
las cuales 


Mo(0" — 0y7(0" — 0) = è + DYO)b(0) = (n10) " + o(1/m). 
Aquí el análogo del teorema 2 tendrá el aspecto siguiente, 


Teorema 2A. Supongamos que se cumplen las condiciones (R). Si 0° 
es la estimación R-eficiente, entonces ésta es la estimación de verosimilitud 
máxima. 


Demostración. Para demostrar que la estimación R-eficiente constituye 
el único punto del máximo, es suficiente convencerse que L'(X, 0*) = 0 
y que cuando 0 = 0° + u, u #0, 


(grad L(X, 0), u) = (L'(X, 0), 0 — 8°) < 0. 


Pero en el caso de existencia de la estimación R-eficiente, se cumple (véase 
(20) 


L'(X, 6) = (0" — On1(0), 
de donde se desprenden inmediatamente las relaciones requeridas. La se- 
gunda se deduce del hecho de que 
(L', u) = —uni(0yu”, 


donde uX(0)u7 es la forma cuadrática definida positivamente. < 

Ejemplo 4. Examinemos una familia biparamétrica de distribuciones 
normales ®a,?. La misma pertenece a una familia exponencial, ya que 
(aquí 0 = (81, 02), 01 = a, 0 = °) 


fw) = e ¿2 


1 ES z 
q [+ 27 


La estimación 6° = (01, 03), donde 0] =X, 0 = $ = 


-p = ah ( > x? = X? ) es eficiente, puesto que pertenece a Ko, y 


la estadística (xs, Ex), como hemos visto en el $ 15, es la estadística 
suficiente completa (véase el teorema 14.4). 
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La estimación de verosimilitud máxima Gi Di - 5?) se distin- 
Rel 
1 


gue de 9* sólo por el factor de la segunda coordenada, debido a 
lo cual la misma permanece desplazada. Para la estimación elegida 9”, la 
representación exponencial especial (15) de la función f(X) no se realizará, 
ya que 


MO = aaoo E D + -AD -e nino} = 


00 op [Se 5-5 -L7 07 -2 5 nino). 


Esto significa que en la desigualdad multidimensional de Rao — Cramer 
no será alcanzada la frontera inferior. 

El elipsoide de dispersión mínimo, definido (según el teorema 14) por 
la matriz 1(9) (o 1” (9), se alcanzará sólo asintóticamente cuando no, 
así que la estimación 0”, sin ser R-eficiente, será la estimación a.R-e. Cercio- 
rémonos de ello directamente. 

Calculemos al principio la matriz /(6). Tenemos 


s -aĵ 
06 0 = EG, uw p= E 
(recordemos que /¿ no es derivada respecto a o sino respecto a 0”, comparen 

esto con el ejemplo 3). Por eso 
=M 2 _1 
hı(8) = Mo E A 


Xi al]_ 
|] o 


y 
10) = a) = Me [2 


220) = Ly Mello — a? — Y jo y 
De aquí hallamos 


0 20%/n 


Calculemos ahora, para comparar, la matriz de segundos momentos 
centrales de la estimación 0”. 
Tenemos 


E en o 
aroy [A } i 


ë 


n 


Moi — 01)” = MG — a)? = 


Mo(0 — 02)? = Mo(Si - “Y = 
Mo(0i — 61X03 — 62) = 0. 


176 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


Las dos últimas ecuaciones se calculan directamente, Examinemos, por 
ejemplo, la segunda de ellas. Es suficiente convencernos de que 


Mo — 083 = 0. (23) 
Pero 
y TE- a-a- a 
G-a = [E -)][E6u - Y eta ray €- 


En vista de que 
Mo — a)? = Moxi — a)? = Mo(x — 0d — a)? 


(23) queda demostrada. 
Ahora bien, la matriz de segundos momentos ĝ* — 6 es igual a 


a/n 0 
0 20An-1 )' 


Por supuesto que la diferencia entre esta matriz y la matriz (n/(6))7 ' puede 
ser considerable sólo para pequeños valores de n. 

4. Algunas deducciones. Concluyendo este párrafo, hagamos cierto re- 
sumen de las investigaciones realizadas en los seis últimos párrafos, Su fina- 
lidad principal consistía en buscar los métodos de construir las 
estimaciones óptimas (en uno u otro sentido) y fijar las fronteras inferiores 
para sus desviaciones estándar. Como resultado se pueden indicar las si- 
guientes cuatro tendencias principales de búsqueda de las mejores estima- 
ciones, 

1. Construcción de las estimaciones bayesianas (si hay una información 
a priori sobre 9) y minimax. 

2. Determinación de las estadísticas suficientes completas (o mínimas) 
S. Entonces la estimación 03 = Mo(0*/S) será eficiente en la clase Ko, a 
la cual pertenece 6”. 

3. Utilización de las ev.m. en los casos en que se cumple el criterio 
(3) del teorema 1 (o el criterio (15) del teorema 1A). En este caso también 
obtendremos las estimaciones eficientes (e incluso R-eficientes) en las clases 
con un desplazamiento registrado. 

4. Enfoque cuantitativo basado en la comparación de la desviación 
estándar Mo(0* — 6)? de la estimación 8*, que queremos utilizarla, con la 
frontera inferior R definida por la desigualdad de Rao — Cramer. Si la 
relación Me(9* — 0)?/R es próxima a cero, la estimación 6” puede ser reco- 
mendada para el uso. Siguiendo esta tendencia, obtendremos ulteriormente 
resultados muy generales relacionados con la construcción de las estimacio- 


o, 
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nes asintóticamente eficientes, asintóticamente bayesianas y asintóticamen- 
te minimax. 

Hagamos también la siguiente observación. En todas las tendencias se- 
ñaladas más arriba, desempeña un papel muy importante la forma en que 
la distribución de la muestra Pp depende del parámetro 9 que se estima. 
Sin embargo, en la práctica a menudo surgen problemas de no estimación 
del propio 6 sino de cierta función p(0) de éste. Además es facil notar (véase 
el ejemplo con el esquema de Bernoulli en (8,4) y (8.5)) que la estimación 
$” = p(9”) no siempre, ni mucho menos, poseerá las propiedades que po- 
seía la estimación 6” (no estar desplazada, ser eficaz, etc., sólo se conserva- 
rán las propiedades de eficacia asintótica si ø es una función suave). Desde 
este punto de vista es natural que al principio se examine el problema de 
estimación de las funciones (9) del parámetro inicial 9. Pero hemos renun- 
ciado a tal enfoque, ya que, manteniendo esta tendencia, muchos resultados 
básicos, obtenidos por nosotros, se complicarían considerablemente. Por 
otro lado, si p realiza una aplicación biunívoca, el problema de estimación 
de p(6) se reducirá al problema examinado por nosotros mediante la «repa- 
rametrización», o sea, la introducción de un nuevo parámetro y = (9), 
al que le corresponderá la familia de distribuciones G, = Po — lo). 


$ 17". Propiedades de la información de Fisher 


Ya hemos visto, y nos convenceremos en adelante, que la información de 
Fisher desempeña un papel muy importante en la estadística matemática. 
Por eso aclaremos algunas propiedades útiles de la misma. 

1. Caso unidimensional. La información de Fisher, 


10) = f LO. pdi) = MaC (xi, 0P, 


apareció en las investigaciones del párrafo precedente. La magnitud 
16) = MolL(X D? 


suele considerarse como la medida de la cantidad de información contenida 
en la muestra X respecto al parámetro 8. En el teorema 16.1 hemos demos- 
trado la aditividad de la información: 1"(0) = n1(0), o sea, que (0) es igual 
a la suma de informaciones ™(8) = Mol!" (x, 6)]? = 1(8) contenidas en las 
Observaciones independientes xı, ..., Xn. 

Demostremos una propiedad más de la información de Fisher. Sea 
S = S(X) cierta estadística con valores en R', y sea go(s) la densidad de 
su distribución inducida por la distribución Pa en (2”, B3”) respecto a 
cierta medida A en (R', B'). De acuerdo con las designaciones anteriores, 


12—8030 
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llamaremos la magnitud 
150) = Molllog gaS)’ Y 


información contenida en la estadística S respecto al parámetro 0. 

Notemos que el valor de 1*(0) no depende de la elección de la medida 
A. En efecto, si Á es cualquier otra medida y » = à + À Entonces A y Á 
serán absolutamente continuas respecto a », y la densidad g%(s) de la distri- 
bución de S respecto a la medida » será igual a 


gus) = gols) ES = a) > 


donde Zo es la densidad respecto a Á. Como Z y ES no dependen de 
4, las derivadas de los logaritmos de todas las tres expresiones coincidirán. 


Teorema 1. Supongamos que las densidades f(x) y g(s) satisfacen las 
condiciones (R). Entonces 


F(0) < M0). a) 


Aquí la igualdad se alcanza si y sólo si S es una estadística suficiente. 


Demostración. Para cualquier B € 9’ designemos por $7 '(B) € Wel 
conjunto x € 2” para el cual S(x) € B. Entonces según la definición de la 
emc., 


| L'G OP oax) = MolL(X, 0); XES”UB)] = 
sm) 
= MolMo(L'(X, 0/5); SEBI (2) 


Por otro lado, 
| Læ Ora) = f awado =F jew x 
sum sm B 
x Nd» = | Áy seas) = Meldos gaS)’; SEBI O) 


Comparando (2) y (3), vemos que c.d. [Po] 
Mo(L'(X, 0)/S) = (log gs(S))”. (4 
Luego tenemos 
0 < MolL'(X, 0) — (log gS)? = 
= 0) + P(0) - 2M9L"(%, Alog gu 5)”, 


$ 17. PROPIEDADES DE LA INFORMACIÓN DE FISHER 179 


donde, en virtud de (4), 
MeL'(X, Alog gS)” = 
= Mol(log go(S)'Mo(L(X, 0/5] = Molílog go(S)) "1? 


Esto demuestra la desigualdad (1). 
Sea ahora S una estadística suficiente para 0. Entonces 


SUL) = US, DAX). (5) 
Tomemos en calidad de A la medida 
MB)= | hood. 
s 8) 


Entonces, como se muestra en el lema 15.1, la distribución de S será absolu- 
tamente continua respecto a A y tendrá una densidad go(s) igual a 
go(s) = Ys, O). De aquí, en virtud de (5), obtenemos 


P(0) = MIL(%, O? = Molllog KS, 0)? = Y%0). 


Mostremos ahora que de todas las igualdades Y*(9) = Y*(0) para todos 
0 se deduce que S es estadística suficiente. Efectivamente, Y*(9) es la disper- 
sión de L'(X, 0), así que 


10) = Mol (X, 0) — ML’ (X, D/S)? + MML’ (X, 0/SP. (6) 
Pero, en virtud de (4), el último sumando es igual a 
Mol(log ga(S) Y = 150). 
Como 7*(0) = 15(0), entonces en (6) c.d. [Po] para todos 0, 
LUX, 0) - Ma(L'(X, 0/8) = 0. 


Por lo tanto, L*(X, 6) es medible respecto a a(S) y, por consiguiente, existe 
una función medible (S, 6) tal que 
LUX © = øS, 0), L(X, 0) = HS, 0) + M0, 

SAX) = xpio(S, 0) + AO]. <a 
Ya hemos señalado que las estadísticas suficientes son el tipo único de esta- 
dísticas que reducen los datos muestrales sin perder la información acerca 
del parámetro 6. El teorema 1 confiere a esta afirmación el sentido exacto 
con arreglo a la información de Fisher. 

Ejemplo 1. Sea X €B,. Aquí 


Le) = pra — pros, 


donde x es igual a 0 ó a 1, y fp(x) es la densidad respecto a la medida 
124 


180 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


de cálculo. Por eso 
165 p) =xInp + ( — x)In( — p), 


Kp) = Mli, PIP =o(2) +a-p( J-a 


Ahora bien, la información de una observación en el esquema de Ber- 
noulli es igual a (p(1 — p))~* y alcanza su valor mínimo cuando p = 1/2. 
La información de toda la muestra constituye n/(p(1 — p)). Designe- 
mos ahora por » el número de «casos favorables» en la muestra X (número 
de casos unitarios) y hallemos la información de esta observación. Las den- 
sidades (otra vez respecto a la medida de cálculo) para » serán iguales a 


8plx) = CAPU — py 7x0, ..., M 
así que log gp(x) = xlogp + (n — x)log(l — p) + log Ch, 
T(P) = Mplllog gp(2) Y = 


-Sca - y- 4 xy = Dra -=x 


faa ITPA Sa 
x- npy 1 n 
x = D» = ii 
oi- A pú =p) 
Esta igualdad concuerda por completo con el teorema 1. 

Le proponemos al lector que halle, en forma de ejercicios, las informa- 
ciones de observaciones para las muestras de las distribuciones que depen- 
den del parámetro unidimensional y que han sido dadas en el $ 2. 

2. Caso multidimensional. Sea ahora 9 € R*, k > 1. En este caso se trata 
de la matriz de información de Fisher de la observación xı: 


10) = MO), 140) = Me zi 106, Ogg, 100, O) 


donde se supone, claro está, que la función f(x) es derivable. 
Si ponemos 


Ax O = (e O, -.., pela 0) = 


š ro 1 (H PZe 
ARO C e E X 


entonces la matriz 7(8) también puede ser escrita en la forma 
10) = | Ps Debo Ouax). 


e 
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Ya hemos establecido, en el $ 16, que al igual que en el caso unidimen- 
sional, la información de Fisher es aditiva, o sea, la matriz de información 
de Fisher de la muestra X es igual a la suma de las matrices de información 
de distintas observaciones. Si designamos 


a a 
(0) = WO, TÍO) = Mo 07 UA D yg, LA O), 


entonces 1%(0) = n1(0). 

El teorema 1 también es completamente válido. Sea go(s) la densidad 
de cierta estadística S = S(X) con valores en R' respecto a cierta medida 
A. Designemos 


1960) = KÄO, IO) = Mo -y los £o(5) + log ga(S). 


Hemos obtenido la matriz de información de la observación S. 
Teorema 1A. Si las densidades fo(x) y gols) satisfacen las condiciones 
(R) del $ 16, entonces 
F(0) < FO, (0) 


o sea, la matriz (8) — T'(8) es definida no negativamente. La igualdad 
en (1) tiene lugar si y sólo si S es una estadística suficiente. 


La demostración de este teorema es completamente análoga a la del 
teorema 1 y, para abreviar, la omitimos. La misma se puede hallar, por 
ejemplo, en [95] y [48]. 

Ejemplo 2. En el $ 16 ya hemos calculado la matriz de información 
para una distribución normal. Calculémosla ahora para una familia bipara- 
métrica de distribuciones 


Sl xa 
m0 (22). 
donde 0 = (a, 0), f es una función derivable dada, para la cual existen las 
integrales 


i= fa Lor dx = Mo, oxi), i =0, 1, 2. 


Aquí Kx) = log f(x}; la tilde * significa la derivación ordinaria, y æ y o 
son los parámetros de desplazamiento y escala de una distribución de densi- 
dad f(x). Ahora bien, conocemos el tipo de la distribución, pero sólo con 
una exactitud de hasta la transformación lineal del argumento. Los paráme- 
tros æ y o de la distribución normal $a,- son, evidentemente, los paráme- 
tros de desplazamiento y escala. Al ser registrado A, el parámetro A de la 
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distribución T es un parámetro de escala, al igual que el parámetro 0 en 
la distribución Uo,o. 
Tenemos 


los 0) = log f(x) = — logo + (2 
o 


CA 7 EA 
da o pa 


De aquí hallamos 


nO- ORE za )]- 


mO = Je Mal (25) E + 


a 
100) => mofi + r(25)] = y Ih- 1), 


puesto que ps r =s- -2 fwar = -2. Por lo 
tanto, 


1 Lo J 
o=- |p a i 


Si f es una función simétrica, es evidente que Jı = 0. 

La degeneración de la matriz /(9) significa que su determinante se redu- 
ce a cero o, que es lo mismo, 

Mo ADO + xl aI? = Mo O Mo. + 1 Y, 
Esto es posible únicamente en el caso cuando 1 + xl’ (x) = cl’ (x) para 
cualquier c, o cuando /'(x) = 0. De la primera igualdad se deduce que 


e 
x=ea” 


Ix) = — In(x— c) + ci, fO) = 


Está claro que tal función f(x) no puede ser la densidad de la distribu- 
ción. Análogamente se examina la posibilidad de que /' (x) = 0. Por lo tan- 
to, (0) está definida positivamente. 
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En particular, para la familia normal [$«,}, cuando ô = (a, 0), 


1 j1 0 

wahi 5) 

puesto que en este caso Nx) = —x?/2 — InV2x, '()=-x b= 
= Monxi= 1, / = Mo,yxi = 0, h = Mo,»xÎ = 3. Podríamos haber ob- 
tenido este mismo resultado con ayuda del ejemplo 16.4, sì hubiéramos uti- 
lizado los datos del apartado 3 donde hemos mostrado el comportamiento 
de la matriz de información al sustituir el parámetro (en el ejemplo 16.4 
0 = (a, 0”), pero no (a, 0). Le proponemos al lector que se cerciore de 
que, en concordancia con el teorema 1A, la estadística (X, Dx?) tiene la 
matriz de información 


50 = L 10 
ENE | 02 
3. Matriz de Fisher y sustitución del parámetro. Examinemos la cuestión 
de cómo se comporta la matriz de información al sustituir el parámetro. 
Pongamos 0 = v(8), B€R*, donde v es una función vectorial derivable, 
y examinemos la familia paramétrica Pf? = P.. Con el fin de hallar la 
matriz de información .J(8) para esta familia, debemos hallar las derivadas 
k 

Y sy», LE Bolh) 

J; Us, v(8) za; Ur vB) A (8) 


imi 


= ni0). 


Si designamos V = Ea >j = 1, ..., k, obtenemos que el vector de 


las derivables en (8) /á(x1, v(8)) es representable en la forma é(x1, v(8)W, 
así que 


JIB) = Mallólas, UB) lila, VBV) = VBV. 
En particular, si 9 = BC, C = fyb i j, = 1, ..., k, entonces V = C7 y 


18) = CHOC". (9) 
Obsérvese que si examinamos, en el espacio paramétrico, el elipsoide 
(0 — PONO - 0 < c, (10) 


la escritura (10) de este conjunto es invariante con respecto a la transforma- 
ción invertible lineal C sobre el parámetro 8. Así pues, si ponemos 9 = £C, 
el conjunto (10) en nuevas variables tendrá la forma 


(8 — BOONE — BY < c, 


donde 8, = 9,C”!. Esto se obtiene inmediatamente si se sustituye 9 = BC 
en (10) y si utilizamos (9). 
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$ 18". Estimaciones del parámetro de desplazamiento 
y escala. Estimaciones equivariantes eficientes 


En los $$ 12—16 hemos visto y nos convenceremos posteriormente hasta 
qué punto es útil el concepto de estadística suficiente en general y al cons- 
truir las estimaciones eficientes en particular. El círculo de ideas relaciona- 
das con la utilización de las estadísticas suficientes podría llamarse 
principio de suficiencia. Al construir las estimaciones eficientes hemos 
combinado el principio de suficiencia con otro principio llamado principio 
de no desplazamiento. Este último consiste en separar las clases de estima- 
ciones con desplazamento registrado y, en particular, con desplazamiento 
nulo. Sin registrar el desplazamiento sería imposible separar las estimacio- 
nes eficientes. 

En este párrafo, así como en el párrafo siguiente y en el capítulo 3, 
examinaremos el tercer principio importante de la estadística matemática, 
o sea, el principio de invariación. 

La introducción de todos los principios mencionados tiene el mismo 
sentido: ellos permiten, de un modo natural, reducir la clase de las estima- 
ciones sujetas a estudio, de manera que en las reducciones obtenidas resulte 
posible la determinación de las estimaciones eficientes. 

1. Estimaciones del parámetro de desplazamiento y escala. Se llama pro- 
blema de estimación del parámetro de desplazamiento el problema de esti- 
mación del parámetro «a en la familia de distribuciones [Pa] que poseen 
la propiedad 


Pa(4) = P(A — a). 


Aquí P es cierta distribución registrada; A — a = {x: x + a €A} y se 
supone que el conjunto paramétrico O tiene la misma naturaleza que 2 
En el caso en que 2'= R" se puede, por supuesto, examinar también los 
desplazamientos de 9 de “menor dimensión”, por ejemplo, escalares, pero 
entonces es necesario registrar la dirección (vector e € 2) de desplazamiento 
y estudiar P,(A) = P(A + ae). Para abreviar, examinaremos tan sólo la pri- 
mera posibilidad y consideraremos que O = Z's R", 

Señalemos que la distribución Pa de x; + c(c € R") coincide con la dis- 
tribución P... de la magnitud x,, o sea, el desplazamiento de todas las 
observaciones en c conduce a la muestra de la distribución Pa +e. Por eso 
es natural que se investiguen únicamente las estimaciones a* = a*(X) del 
parámetro œ que poseen la propiedad 


AX + c) = aX) + c 0) 


De aquí en adelante X + c significará el vector con coordenadas (tı +6 
«+s Xa + c). La violación de esta igualdad significaría que la estimación 
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a’ depende del origen, o sea, de la elección del origen de coordenadas en 
el espacio Z= R”. 

El enfoque análogo aparece al estimar el parámetro de escala cuando 
se aprecia el parámetro g en la familia (P,) que tiene la propiedad 
P.(4) = (4/0), 0 €(0, œ). Aquí suponemos que y es escalar, aunque se 
puede examinar también un caso matricial. En este caso la distribución 
Po de los valores x;c coincide con la distribución Poe de las magnitudes 
Xı, O sea, la multiplicación de las observaciones por c conduce a la muestra 
de Pec. Por consiguiente, en este caso es natural limitarse al examen de 
las estimaciones que poseen la propiedad 


Xe) = co (X), a) 


donde Xc = (x1C, ..., XaC), puesto que al variar c veces la escala de obser- 
vaciones esa misma cantidad de veces también varía el parámetro. 

El lector, por su propia iniciativa, puede obtener fácilmente las afirma- 
ciones siguientes. 

Si la familia Po satisface la condición (A,), entonces 0 será de parámetro 
de desplazamiento (de escala) si y sólo si 


nosa- on (n=) 


, X € Pa y a es el parámetro de desplazamiento, entonces 

, @™)E Qo, donde, para las distribuciones Qo, o = e° 
es el parámetro de escala. Esto se deduce directamente del hecho de que 
la densidad y, = e” es igual a (véase [11], p. ) 


jrm- [2(m2)]. 


Al contrario, si 2= (0, œ) = O, X € Pe y o es el parámetro de escala, 
entonces Y = In X = (in xı, ..., Inx»)€ Qa, donde a = In g es el paráme- 
tro de desplazamiento de las distribuciones Qa. 

Se puede examinar también el problema de estimación simultánea de 
los parámetros desconocidos œ y o en el caso en que Pa,(4) = 


=. AS . En estas condiciones es natural que en calidad de estima- 
ción de o se examinen las funciones que poscen la propiedad 

aX + c) = a (A), a (Xc) = co (A). 8) 

Las estimaciones que en los ejemplos examinados satisfacen las condi- 


ciones (1), (2) y (3) se llaman eguivariantes (véase la definición general en 
el $ 19). La causa de introducción de tales estimaciones consiste en la con- 
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tracción de todas las estimaciones sometidas a estudio, lo cual simplifica 
el problema de búsqueda de las estimaciones óptimas. Así en el $ 8 hemos 
establecido que es imposible hallar uniformemente (o sea, para todos los 
0) las mejores estimaciones en la clase de todas las estimaciones. Resulta 
que en la clase de estimaciones equivariantes tales estimaciones uniforme- 
mente mejores ya existen y en varios casos pueden ser halladas en forma 
explícita. Vamos a ilustrar este hecho citando, a título de ejemplo, las esti- 
maciones de desplazamiento y escala. 

2. Estimación eficiente del parámetro de desplazamiento en la clase de 
estimaciones equivariantes. Aquí consideraremos que se cumple la condi- 
ción (4,) y, por lo tanto, fa(x) = f(x — a) y que p es la medida de Lebesgue. 

Designemos por Sy la estadística 

So = SA) =(X2—X1, ><, Xn = X1) 


que es, evidentemente, invariante respecto al desplazamiento: 
So(X + c) = So(X). Designemos por Kz la clase de todas las estimaciones 
equivariantes a”, o sea, las estimaciones que satisfacen (1), y designemos 
por la]? el cuadrado de la norma euclidea a € R”. 

Teorema 1. Sea a” = a” (X) cualquier estimación equivariante con valor 
finito Moa”. Entonces, la estimación 


aj = a” — Mo(a*/So) (4 


no depende de la elección de a y es la única estimación eficiente en la 
clase Kg, o sea, Malos - al? = mia Mala’ — al? para todos los a y 


Mala’ — al? = Malas — al? si sólo Mo(i"/Sp) = 0 cd. La estimación aò 
puede ser representada en la forma 


e A iiaa (0) 
(Odu [AX — udu 
La estimación «y se denomina estimación de Pitman. De (4) es fácil 
deducir que ésta es equivariante y no está desplazada. La equivariación 
se deduce de la equivariación de a” y de la invariación respecto al desplaza- 
miento de la función V(So) = Mo(a*/So) que depende tan sólo de So. El 
no desplazamiento se deduce de las igualdades 


Mai = a + Maa (X — a) — MaV (So), (6) 


donde Ma V(So) = MoV(So), Maa’ (X — a) = Moa'(X). La última relación 
se deduce del hecho de que X — a € Po si X € Pa. Por eso la suma de 
los dos últimos sumandos en (6) constituye 


Moa" — MolMo(a”/So)] = 0; Maad = a. 
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Antes de demostrar el teorema expondremos la siguiente afirmación au- 
xiliar, 

Lema 1. Sea X € Po. Para cualquier estadística S = S(X) con esperanza 
matemática finita Mo|S| < œ, la e.m.c. de S respecto a So es igual a 


[SX — fN du 
YOdu 


Demostración. Todas las funciones bajo los signos integrales en (7) son 
las funciones de X — u. Por consiguiente, después de sustituir xı = u = v, 
las mismas serán las funciones de (v, xz — X1 + v, ».., Xa — X1 + v). Esto 
quiere decir que el segundo miembro de (7) depende únicamente de Sp. 
En virtud de las propiedades de la e.m.c., para demostrar el lema es suficien- 
te convencerse que para cualquier A € 0(So) 


Mo(S:; A) = Mo(S; A). (0) 


Mo(S/S) = SUX) = (9) 


Sea Z = Z(Sp) cualquier estadística o(So)-medible limitada. Entonces 


Z(S0) [so ~ Yoda 
MoZS, = J 


— par 0 - 


a ZAS)S( — UNC — UY), 
¿AA 


Después de sustituir x — u=x, en el intervalo interior obtenemos (en este 
caso So(x) se transforma en sí mismo) 


ZIONS OYA + u = = 
| j Pa dxdu = [zoserme MoZS. 
l d 


Esto demuestra (8). El cambio del orden de integración, al cual hemos 
acudido dos veces, es justo en virtud de la integrabilidad absoluta de S 
y del carácter limitado de Z. < 

Demostración del teorema 1. Antes que nada es preciso señalar que para 
la estimación equivariante, Maja” — af? no depende de a. En efecto, 


Mala’ (O) — af? = Mala (X — a)? = Mola" (Of. 


Ahora bien, para determinar la estimación equivariante uniformemente 
óptima es necesario hallar a”, que minimiza Mola”. 
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Sea a* cualquier estimación equivariante a. En virtud de las propieda- 
des de la em.c., 


Mojo"? = Moja” — Mo(a"/So)i? + MolMo(a"/So)l? > 
> Mola" — Mola" /So)f. (0) 


Queda señalar que, en virtud del lema 1, la estimación 
að = a” — Mola" /So) es igual a (5) y no depende de la elección de a”. La 
igualdad en (9) es, evidentemente, posible si y sólo si Mo(a*/So) = 0 c.d. < 

De la demostración del teorema se deduce que, en la construcción de 
la estimación óptima equivariante, desempeña un papel especial la estadísti- 
ca So = (x2 — Xi, ++.» Xn — X1), que es invariante respecto a la transforma- 
ción del desplazamiento. La invariación de la estadística es, en cierto 
sentido, una cualidad contraria a la suficiencia, y la construcción de la 
estimación 03 = 0” — Mo(6*/So) a base de la estimación arbitraria 0*, es 
el enfoque del mejoramiento de la estimación 0”, también, en cierto sentido, 
contrario al enfoque con el cual, para el mejoramiento de la estimación 
0” mediante la estadística suficiente S, se examina la estimación 
0; = Mo(0*/S). La contrariedad consiste en lo siguiente. La característica 
suficiente contiene toda la información sobre el parámetro 6, mientras que 
la estadística invariante no contiene ninguna. Con el fin de obtener las me- 
jores estimaciones, hemos buscado las estadísticas suficientes mínimas; 
aquí, como veremos, necesitamos las estadísticas invariantes máximas (tal 
es la estadística So). La estimación 0; es la «proyección» de 0* sobre S, 
mientras que la estimación 93 se obtiene sustrayendo de 0° su «proyección» 
sobre So. 

En resumidas cuentas, los resultados obtenidos por estas dos vías coinci- 
den a menudo, como se verá de los dos ejemplos siguientes. 

Ejemplo 1. Sea Z'= R, X € Po,1. Entonces 


140 = or wf- al 


OT e o(- 3 E NS rer 


VAR) + 


Aqui el segundo factor, como función de a, es la función de densidad 

de la ley normal con parámetros (X, 1/n). Como el primer factor no depen- 

de de a, es reducido en (5), y la estimación de Pitman constituirá a" = x. 

En el caso multidimensional obtendremos este mismo resultado. 
Ejemplo 2. Sea 2= R, X € Uo,1/0. Entonces 


=È 1 cuando Xq) — 1<0< xo, 
FCO = | 0 en los demás casos. 
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Por eso > 
r= 1 uduftro + D=} (0 + xw- D. 
Ko -1 

Ahora bien, vemos que en la clase Kg de estimaciones equivariantes 
se pueden construir, en forma explícita, las estimaciones eficientes, además, 
en este caso no se necesitan ningunas condiciones de suavidad de f(x), 
y la propia eficacia tiene un carácter exacto (no asintótico). 

3. Carácter minimax de la estimación de Pitman. Ahora prestemos aten- 
ción a la forma de estimación de Pitman. Hablando en términos generales, 
ésta es una estimación bayesiana para la distribución a priori «uniforme 
en todo el eje». Como tal distribución no existe, enunciemos más exacta- 
mente la referida afirmación. Sea 2'= R y Q™ una distribución uniforme 
en [-N, N), o sea, una distribución cuya densidad constituye 

Ma =f CM, Itl <N, 
4O ES ll > N. 


La estimación bayesiana correspondiente a QU será igual a 


fuq eyfa du f î 
ao LAA a | Odu] È 0d. 
ra y] "| E A 


Es evidente que para todos X, la estimación de Pitman aë es el límite 
a= lím aQ). Esta circunstancia sugiere que a la vez convergerán 
Nao 


también los momentos de segundo orden: 
Malago — 0) +Malas — a)”. 


Resulta que en la región |æ] < N — YN, eso es precisamente así. Ade- 
más, la convergencia será uniforme respecto a æ en el referido intervalo 
de valores de œ. (La demostración está relacionada con la estimación de 
Ma(oó — ago)”, tiene principalmente carácter técnico y por eso la 
omitimos). 

Pero en este caso podemos utilizar el criterio del carácter minimax de 
las estimaciones en el teorema 11.3; si la estimación a" es tal que, para 
todos los valores de œ, 


Mala’ — a)? < lim sup [Manm — ¡QUA (10) 
Nom 
para cierta sucesión de distribuciones a priori Q™ (no obligatoriamente 


uniformes) y de estimaciones bayesianas correspondientes agn entonces 
a' es una estimación minimax. 
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En nuestro caso, m = Malad — a)? no depende de œ. Por eso, en virtud 
de las propiedades de convergencia anteriormente mencionadas, 


lím sup [Mago — QU de > 
Nro 


N= 2N 
I<N-vN 


> lim sup f Milage — dt > 


e 1 Š 
> lm sup 37 UN — VM (m — 6) = m E 


para cualquier e > 0. Esto significa que se ha cumplido la propiedad (10). 

Así pues, la estimación de Pitman es minimax en la clase de todas las 
estimaciones del parámetro de desplazamiento (el hecho de que ella sea mi- 
'nimax en la clase de estimaciones equivariantes, se desprende, evidentemen- 
te, de la eficacia). 

Lo dicho también se puede interpretar del modo siguiente: la «peor» 
distribución a priori (véase el $ 11) para el parámetro de desplazamiento 
es la distribución «uniforme en todo el eje». 

Como indicación del carácter minimax de la estimación de Pitman tam- 
bién podría servir la dependencia (señalada más arriba) Ma(aó — a)? de 
e: (compárese con el teorema 11.2). 

4. Acerca de las estimaciones óptimas del parámetro de escala, Como 
ya hemos indicado, el problema de estimación del parámetro de escala a 
puede reducirse, en cierto sentido, al problema de estimación del parámetro 
de desplazamiento. Sea, por abreviar, 2'= (0, œ) = O. En este caso, si 
X €P, P(A) = P(4/0), entonces Y = ln X = (linx, ..., Inxn)E PL, 
donde a = Ing, y la distribución P{® tiene una densidad y, = In xı en el 


nen = 100) , igual a (véase 


punto y (Q condición (4,) se cumple, 
[11), pág. 53) 


PPO - a), 


PO = e. 


Ahora bien, podemos apreciar muy bien el parámetro a con ayuda de 
la estimación de Pitman a” = a*(Y), y luego suponer que 0'(X) = ex'(M, 
Es fácil notar que o'(X) será equivariante, ya que 


0 (cX) = ex'(Y+inc) = eo(Y)+Inc = co*(X). 


No obstante, aquí es importante señalar que la estimación de Pitman mini- 
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miza Ma(a* — a)”. Por lo tanto, la estimación o" obtenida minimizará 


SNE 
Mo (in E) an 
o 


y no la magnitud Mo(o" — 0)? de la cual se trataba generalmente. Pero en 
el problema de estimación equivariante del parámetro ø no era racional 
examinar la estimación estándar, puesto que ella, a distinción de (11), de- 
pende de la transformación de contracción aplicada simultáneamente a o” 
y o. Aquí, como análogo de la estadística invariante So servirá la estadística 
(X2/X1, ---» Xn/X1). A la par con (11) también es posible, naturalmente, 
examinar otros errores. Si, por ejemplo, minimizamos la magnitud 


2 
m(L-1), 
y 
entonces, la mejor estimación equivariante será 


"RX /0)do 
WX Toyda 


(12) 


(véase [33], p. ). 

Ejemplo 3. Detección de la fuente de radiación. Examinemos un ejem- 
plo de un problema físico real, relacionado con las estimaciones de despla- 
zamiento y escala. 

Supongamos que en cierto punto desconocido z del espacio tridimensio- 
nal se encuentra una fuente de radiación gamma. El problema consiste en 
determinar las coordenadas del punto z utilizando un detector plano (que 
coincide con uno de los planos de coordenada) y, fijando en este detector 
las trazas de radiación, o sea, las trazas de interacción de los cuantos gam- 
ma, emitidos por el punto z, con la superficie sensible del detector. 

Este problema sería mucho más simple si tuviéramos una fuente de ra- 
diación de partículas cargadas de alta energía. Entonces podríamos poner, 
uno tras otro, dos detectores planos paralelos y fijar en ellos los puntos 
de paso (o sea, de interacción con la superficie de la pantalla) tan sólo 
de dos partículas. Esto nos daría las direcciones del vuelo de esas partículas 
y junto con ellas las coordenadas del punto z como punto de intersección 
de dichas direcciones. Sin embargo, para una radiación gamma poco inten- 
sa, que se utiliza en roentgenoscopia, esto es irrealizable y tan sólo se puede 
introducir un detector, 

La dirección de propagación de los cuantos gamma idos es aleatoria 
y se distribuye uniformemente en la superficie de la esfera (si dicha direc- 
ción se determina por un punto en. la esfera con centro en el punto z). 

Para simplificar el problema examinemos su variante bidimensional. Su- 
pongamos que la fuente se encuentra en el plano de las variables (x, »), 
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en un punto desconocido z = (a, 0), a > 0. El ángulo de dirección de la 
radiación, formado con el eje Oy, tiene una distribución uniforme en [0, 
21]. El detector sensible coincide con el eje de abscisas. Los resultados de 
las observaciones serán los puntos x1, Xz, ---, en los que hemos fijado 
la interacción de los cuantos gamma con el detector (con el eje de abscisas). 

La peculiaridad de este problema consiste en que el volumen 7 de la 
muestra obtenida durante un tiempo fijo ż, será aleatorio: el número de 
cuantos gamma emitidos por la fuente en el tiempo £ tiene una distribución 
de Poisson, y el número de cuantos gamma que alcanzaron el detector tam- 
bién está distribuido con arreglo a la ley de Poisson, ya que cada cuanto 
llega al eje de abscisas con una probabilidad igual a 1/2. No obstante, en 
nuestro caso, n y las observaciones X1, X2, .. . Son independientes. Por eso 
podemos examinar el número n de observaciones que se ha obtenido y con- 
siderarlo fijo (para cada uno de tales números n fijos, la distribución de 
xı será la misma). 

Así pues, supongamos que se han dado las observaciones X = (X1, ..., 
Xn). Nuestro problema consiste en estimar las coordenadas (æ, g). Mostre- 
mos que X € Ka, o, O Sea, x; tienen una distribución de Cauchy con paráme- 
tros de desplazamiento œ y de escala o. 

En efecto, la distribución condicional del ángulo £ entre la dirección 
del movimiento del cuanto gamma y el eje (0, —»), a condición de que 


el cuanto haya alcanzado el detector (el eje de abscisas), será uniforme en 
el segmento [ — 1/2, 1/2]. Como (x — a)/a = tg 8 (véase la fig. 2), entonces 
A E x-a 
Pax <x) tz arts —¿— - 
Por consiguiente, la densidad de distribución de x; será igual a la densidad 
de distribución de Cauchy (véase el $ 2) 


ae 1 a a 
AA AGA GA 
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Ahora supongamos que g es conocido, por ejemplo, ø = 1. Entonces 
la mejor estimación invariante del parámetro de desplazamiento æ será la 
de Pitman, que se obtiene como el valor medio de a* jup(u)du de la 
distribución con una densidad de 


ou) la 0 = A 0 = TT eo, 


121 


kod m kad = E 


La ev.m ad” será un punto en el que se alcanza el máx p(u). Más adelante 
mostraremos (véanse los §§ 24 y 25) que a* y a” son asintóticamente equiva- 
lentes y tienen una distribución asintóticamente normal con coeficiente 


1/7 = 2 (en el caso sujeto a examen /= [UcóY/Kkodx = ar a+ 


+ D “dx = 1/2). De lo dicho resulta que el error de las estimaciones a” 
y a* para grandes n tiene un orden de pequeñez igual a 1/7. 

Es interesante señalar que en el problema sometido a examen se puede 
alcanzar un grado más alto de exactitud, interviniendo en el experimento. 
Esto se puede hacer colocando entre el punto z = (a, 1) y el detector una 
pantalla paralela al eje de abscisas y provista del orificio H, a través del 
cual sólo pueden pasar los cuantos gamma. Las posiciones de la pantalla 
y el orificio se eligen según el experimentador y, por lo tanto, son co- 
nocidas, 

En este caso la distribución de las observaciones en la pantalla será 
discontinua y, si los orificios Æ son pequeños, será próxima a Usa,aa +9 
para ciertas constantes a y b que conocemos. La forma de la estimación 
equivariante eficiente aĝr para tal distribución fue hallado en el ejemplo 
2, La estimación ajy se determina por los valores extremos de la muestra 
y tiene una exactitud del orden de 1/ny, donde ny < n es el número de 
elementos de la muestra, los cuales corresponden a los cuantos que han 
pasado a través de la ranura (na, al igual que n, es realmente aleatorio 
y está distribuido de acuerdo con la ley de Poisson). Como, por término 
medio, ny es proporcional a n, con valores de n bastante grandes obtenemos 
Mny < 1/Vn. 


$ 19*. Problema general sobre la estimación equivariante 
Examinemos el grupo G de transformaciones medibles g del espacio 2” 
en sí, que poseen las propiedades siguientes: 

1) cada g aplica 2” en todo el espacio 2”, o sea, para cada x €2” 
se encontrará un xı €2” tal que xX = 2x1. 


13—8030 
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2) las aplicaciones g son biunivocas. 

La mensurabilidad de g se necesita para que gX sea una variable aleato- 
ria, La propiedad de grupo quiere decir que g281 € G si gı € G, £2 € G; la 
transformación idéntica e y la inversa g7} pertenecen a G (así que 

Tig =e). 

Definición 1. La familia de distribuciones (Po) se llama equivariante 
respecto al grupo de transformaciones G(o, para abreviar, simplémente in- 
variante) si para cada g € G y 0 € O existe el único 0 € O tal que la relación 
X € Po conduce a gX € Po. 

Designemos por 0, = gô el valor de 0, definible univocamente por 9 
y g. Entonces la definición significa que 


Po(gX € A) = Py X € A). 


Como en virtud de la definición 1 se cumple la condición (40), el con- 
junto G de todas las transformaciones £ del espacio O en sí forma un grupo. 
En efecto, la distribución gg X se da simultáneamente por las distribucio- 
nes Pago y Pago. De la condición (4o) resulta que 8281 = E281 y que 
gr? € G (es suficiente poner gz = gr `). Las transformaciones Z de G son 
automáticamente biunívocas. Sin embargo, puede no haber isomorfismo 
entre G y G. Sea, por ejemplo, X € Po,.?, o € (0, œ). En este caso la den- 
sidad fo,(X) (función de verosimilitud) depende exclusivamente de Yx? 
Por consiguiente, si en calidad de G examinamos un grupo de revoluciones 
(transformaciones ortogonales de 2””), entonces, las condiciones de la defi- 
nición 1 serán cumplidas, pero £ = Z, y el grupo G se compone del único 
elemento Ẹ, o sea, de la transformación idéntica de O = (0, 00) en si, 

Le proponemos al lector que compruebe, en calidad de ejercicio, que 
si [Po] es invariante respecto al grupo G, y Gi es un subgrupo de G, enton- 
ces (Po) es invariante respecto a Gy. 

Cuando examinemos el problema general de estimación equivariante ne- 
cesitaremos un planteamiento más general del problema respecto a la com- 
paración de las estimaciones. Hasta ahora lo hemos hecho con ayuda de 
las desviaciones estándar, midiendo el error de la estimación por la magni- 
tud (9* — 9), Ahora supondremos que la medición del error de 9* ocurre 
con ayuda de la función w(9*, 8) y que esta función posee propiedad de 
“homogencidad”*): 


w(E0, Z0*) = w(0, 0*) para todos los valores de 0. 0 


Precisamente esta propiedad es típica de las funciones w(9, 9*) = (9 — 0*Y 
para el parámetro de desplazamiento (transformación de desplazamiento) 


” Esta propiedad no es obligatoria en la teoría de estimación equivariante. Sólo se puede 
exigir la existencia de £0” tal que para todos 9w(Z0, ZO") = w(0, 0°) (véase [33). 
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A 5 
y m0, 0%) = (ía +) ó ( z 1) para el parámetro de escala (transfor- 


mación de contracción). 

Hemos visto en el punto 4 del $ 18, que el problema de determinación 
de la mejor estimación invariante puede ser muy sensible al elegir la medida 
del error w(9, 9*) de la estimación 9*. 

Recurramos ahora al problema de estimación de las familias invariantes 
(Po). Supongamos que tenemos la muestra X y que basándonos en ella 
hemos construido la estimación 9* = 9*(X) del parámetro 0. Si examina- 
mos la muestra Y = gX € Pře, entonces 0*(Y) será la estimación para 80. 
En este caso es natural suponer que las estimaciones 9*(X) y 0*(Y) están 
ligadas entre sí al igual que los parámetros sujetos a estimación ô y 80, 
O sea, mediante la transformación 8: 


OY) = g. a) 
En virtud de (1), la estimación 9*(Y) del parámetro Z(0) proporciona el 
mismo error que la estimación 0*(X) del parámetro 0. Por lo tanto, tenemos 
dos problemas de estimación “iguales”. Las transformaciones realizadas gX 
y 80 pueden interpretarse como las sustituciones de los sistemas de coorde- 


nadas. Entonces (2) significa que la estimación 9* no depende de la elección 
del sistema de coordenadas y satisface la relación 


0*(X) = 87 '0*(gX). 6) 


Con otras palabras, si se ha elegido 6*, que satisface (2), entonces no impor- 
ta cuál de los dos problemas de estimación mencionados más arriba ha 
de ser resuelto, puesto que, mediante la igualdad (3), las deducciones acerca 
de g0 en el segundo problema pueden convertirse en deducciones acerca 
de 0 en el primer problema. 

Definición 2. La estimación 9* del parámetro 9 de la familia invariante 
Po que satisface (3) se llama equivariante”. 

Examinemos cualquier punto 6 € O y el conjunto de puntos “equivalen- 
tes” 0 = g80, g € G. Tal formación de clases de puntos “equivalentes” divide 
todo el espacio © en subconjuntos llamados órbitas. 

Teorema 1. El valor de Me w(0, 0*) para la estimación equivariante 
0* es constante en la órbita, o sea, 


Mow(0, 0*) = Mzow(g0, 0*) 
para cualesquiera 06€ O y g€ G. 


> Tales estimaciones se denominan, a veces, invariantes. Sin embargo, este término es 
menos exacto. Es mejor dejarlo para las estimaciones que poseen la propiedad 0*(gX) = 0*(X) 
(0 sea, para el caso cuando E = E para todo g). 


13* 
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Demostración. 


MowW(0, 0*(X) = Mew(g0, 0*(X)) = 


= Mowl(E0, 0*(2X)) = Mawo, N). < 


Si la órbita (9; 0 = go, g € G) coincide con O (como tuvo lugar para 
los parámetros de desplazamiento y escala), entonces Mow(9, 6*) = const 
en O. El cumplimiento de esta igualdad es el síntoma característico del 
carácter minimax de 9* (compárese con el teorema 11,2), así que las mejores 
estimaciones equivariantes a menudo resultan minimax en la clase de todas 
las estimaciones (esto se detalla en [33)). 

De los teoremas del $ 11 se deduce, por ejemplo, el 

Teorema 2. Si O es una órbita, y la estimación equivariante 0* resultó 
bayesiana (o el límite de estimaciones bayesianas 0%, con una convergencia 
Msw(0, 0*) = lim Mow(9, OR), entonces 0* es una estimación minimax. 


Nótese también la siguiente propiedad importante de las estimaciones 
equivariantes. Será cómodo designar por »(g, dx)/vídx) la densidad de la 
medida vz, vs(B) = v(gB) respecto a la medida » en el punto x€ 2”. 

Teorema 3. Supongamos que se cumple la condición (4) y 
"(8 dx)/y"(dx) es finito y positivo para cada g € G, y c.t. |p") valores de 
x. Supongamos, además, que la ev.m. Î* es la única para cada X. En este 
caso, si la familia Po es invariante, entonces Ẹ* es la estimación equiva- 
riante. 


Demostración. Tenemos 


Su) = 


00 (dx) _ max PAN) 
pay 7 a 


4) 


en el punto x = X. Suponiendo Y = gX, también podemos escribir 
Proe dò -mgg Pole dD 

“"(g dx) o pg dx) 
En virtud de la invariación de Ps» y del carácter finito de 
u"(g dx)/u"(dx) > 0, esto equivale a que 


Pid mar Part) _ max Polo) 


(dx) e pax) o wd 


Comparando con (4) y utilizando la unicidad de 600, obtenemos 
gew = N. a 


feno) = 
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$ 20. Desigualdad integral del tipo Rao—Cramer. 
Criterios del carácter asintóticamente 
bayesiano y minimax de las estimaciones 


Este párrafo también podría titularse “Desigualdad para la desviación es- 
tándar en el caso bayesiano”. En su mayor parte el mismo se refiere a la 
teoría asintótica de la estimación. 

Antes ya hemos tocado las cuestiones relacionadas con el enfoque asin- 
tótico de la comparación de las estimaciones. Ahora, y sobre todo en los 
$8 23—29, dichas cuestiones serán el principal objeto de estudio, 

1. Estimaciones eficientes y supereficientes. En el $ 16, dedicado a la 
desigualdad de Rao—Cramer, quedó sin aclarar la siguiente cuestión im- 
portante. Supongamos que se cumple la cuestión (R). Entonces, para las 
estimaciones no desplazadas, 


2 1 
Mo(0* - 0 > MOR 


El segundo miembro de dicha desigualdad se llama, a veces, frontera 
de Rao—Cramer. Esta se alcanza para las estimaciones R-eficientes. La 
cuestión consiste en si ¿será posible o no, a costa de elegir el desplazamien- 
to, mejorar considerablemente las estimaciones R-eficientes o asintótica- 
mente R-eficientes? Es la cuestión acerca del carácter esencial de la frontera 
de Rao—Cramer y acerca del papel que desempeña el desplazamiento. 

Ya hemos examinado parcialmente el hecho de que en un punto registra- 
do bs, el valor de Mp(0* — 0)? puede hacerse mucho menor que la frontera 
de Rao—Cramer. Para ello es suficiente tomar 0* = 8. No obstante, en 
este caso, tal estimación en otros puntos será muy mala. 

Se puede citar otro ejemplo menos trivial, donde el mejoramiento se 
alcanza nó a expensas de otros puntos. Sea X € ®a,1, a €O = [0, œ). En- 
tonces la estimación œ* = X es eficiente e incluso R-eficiente, Sin embargo, 
en nuestro caso, cuando O = [0, æ), la estimación a** = máx(0, X) será, 
evidentemente, mejor, puesto que ella reduce las desviaciones estándar, sus- 
tituyendo por O los valores negativos inadmisibles. Es evidente que la esti- 
mación a** ya será desplazada: Maa** > a, pero en el punto a =0 


tenemos Za) =1, Mofa’)? = Z, Mo(a**) = + <0 En este 


ejemplo, el mejoramiento está relacionado con el hecho de que hemos redu- 
cido el campo de valores de la estimación a® hasta el conjunto ©. Citemos 
un ejemplo más (perteneciente a Hodges), en el que el mejoramiento de 
a* ocurre no a costa de la limitación de O. 
Sea, como antes, X € B..1, € 9 = (— œ, 00). Además de la estima- 
ción eficiente a* = X examinemos, cuando $ < 1, la estimación 
ar A A, 
px si lx] < ne 
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No es difícil ver que, cuando æ > 0, según el teorema central, del límite, 
Pal] < 79) <P AG - a)n < n™* — avn) > 0 


cuando n — œ, La afirmación análoga es cierta cuando a < 0. Por eso 
ar**, cuando æ > 0 ar**, coincide con X en el conjunto de la probabilidad 
que converge hacia 1 y, por lo tanto, según el teorema de continuidad cuan- 
do a 0, 
(a*t — aJVn E $o.. 
Cuando a = 0, 
Po(lx] < n7™*) = Po(lxVa] < n") > 1 

y a** en el conjunto de la probabilidad convergente hacia 1 coincide con 
Bx, así que (a** — a)n € #o,s. Por consiguiente, para todos los valores 
de a, la estimación a** es asintóticamente normal, (a** — a) Va € 
€ toan donde 


1 cuando a # 0, 
e. fo 1 cuando ar = O. 
Ahora bien, en el punto æ = 0, el coeficiente de dispersión o°(0) resultó 
menor que la frontera inferior de Rao—Cramer, igual a 1. 

Las estimaciones asintóticamente normales en los ejemplos citados, 
cuando el coeficiente de dispersión para ellas a7(0) < 1” *(6) es, con algunos 
valores de 0, estrictamente menor que /” (0), se llaman, a veces, superfi- 
cientes. 

No obstante, resultó que estos ejemplos cambian poco el cuadro, justo 
en general, acerca de la preferencia de las estimaciones eficientes. Precisa- 
mente Le Cam demostró que el mejoramiento (ilustrado más arriba) de 
las estimaciones, hablando en general, sólo se puede lograr en pequeñas 
cantidades de puntos. 

En este párrafo mostraremos que a la par con la relación 
inf M.(0* — 1)* =0, válida para cada £ para la integral respecto a 


M4(0* — £) ya existe una frontera inferior positiva que no depende de 0* 
y la cual se halla estrechamente relacionada con la integral análoga de la 
función (n/(£))7!. Así mismo obtendremos, en el caso unidimensional 
0€R, la desigualdad para 


inf [M,0* - Palidt, (0) 


cualquiera que sea la función ponderal g(1) > 0, [g(f)dt = 1, cuyo segundo 
miembro no depende de 9* (incluyendo también el desplazamiento b(£) pre- 


sente en la desigualdad de Rao—Cramer) y es próximo al valor de J/n, 
donde 


= (20 
de o de o 
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2. Desigualdades principales. Antes de enunciar los teoremas respecti- 
vos, señalaremos que la integral en (1) puede considerarse como la esperan- 
za matemática incondicional M(9* — 0)? en el caso bayesiano, cuando 0 
tiene distribución a priori, con una densidad q(/) respecto a la medida de 
Lebesgue. En este caso J = MI” *(0). 

Designemos por f(x, t) = f(x) a(1) la densidad de la distribución com- 
patible de X, mientras que 9-f/(x), como antes, designará la derivada de 
fx) respecto a t 

Seguidamente supongamos que Na C 8 es el portador de la función 
h definida en O: Na = {x h(t) 4 0), y que N es el portador de f(x, f) en 
Z"xo. 

Teorema 1. Supongamos que f(x) es derivable respecto a t, y que la 
Junción VI) es integrable en cualquier intervalo finito. Entonces para 
toda función derivable h(t) finita (o sea, igual a O fuera del intervalo finito), 
tal que Na C No es válida la desigualdad 
MO" - 0? > IMA (0)/0 0) a 

AMOO) + Mih’ (0)/0(0)1 


hinar)? 
nom O/atodr + ih Oade 
Demostración. Tenemos, en virtud del carácter finito de A(1), 
SOCIA’ dt = [AVI = 0, 
[OA dt = — [A6)MDA. 
Por consiguiente, para toda 0%, 
de [O MAY darias = 


=£ [Amara = pros 


Estas integrales pueden considerarse, en virtud de la condición Ny C Ng, 
como integrales respecto a N. Por lo tanto, podemos multiplicar y dividir 
por f(x, £) la expresión subintegral en (4). Entonces obtenemos 


y ORO ho) 
me -o Le] S | coar m0. 


De aquí, en virtud de la desigualidad de Cauchy—Buniakovski, resulta 


IM(9)/9(8)Y 


mee” 9,  _—ue 
OS CORO ¡GAO 


(5) 
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Sólo queda reducir esta desigualdad a la forma (3). Nótese previamente 
que 
MiL’ (X, N| < ay) 
y que casi para todos” 1, 
M:ıL'(X, t) =0. (6) 
La primera de estas afirmaciones se deduce de las relaciones M;|L' (X, 
D| < AMI (x10)| < n {Mil (a, 01)? = nV) , que resulta de la desi- 
gualdad de Cauchy—Buniakovski. Para demostrar la segunda afirmación 


tomemos la función finita arbitraria g(£) que en todas partes tiene la deriva- 
da continua g'(1). Entonces 


JONO dt = — fe (OROOAt. 
Además, 
JICOIMAL"(X, lar < AfIEOVTO de < «o. 


De aquí resulta que se puede cambiar el orden de integración en la expresión 
siguiente: 


[EOM ndt = $ | eOfOd (a = 
è 


.- pi Je Onoda =- fe Oa =- jao -0 


El cumplimiento de esta igualdad para todos g precisamente significa 
la validez de (6). 

Ahora podemos transformar el segundo miembro (5). Omitiendo, para 
abreviar, los argumentos de las funciones, obtenemos 


a] le in] [Que] > 


$ am [02 m ] M(t y- ma (£)' 1] +m(. 
Aquí hemos aprovechado el hecho de que, en virtud de (6), 
m[ 42 maz] = l HE maras =0 


) 


y que (véase el $ 16) Mo(L'Y = n10). < 
En las afirmaciones posteriores siempre supondremos que f:(x) satisface 
las condiciones del teorema 1. 


* En el $ 16 hemos demostrado que esta igualdad, al cumplirse las condiciones (R), tiene 
lugar para todos £. Aquí nos será suficiente que la misma se cumpla para casi todos f. 
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Teorema 2. Si la función h(t) = holt) = q(0/1(0) es finita y derivable, 
entonces 


=i 
M(0* - 0° > Gog T >24 EN 0) 


ii aD \ F at 
donde H JC ya ] ra 

Observación 1. Las desigualdades dadas en los teoremas 1 y 2 son inte- 
grales desde el punto de vista de que pertenecen a las integrales de 
M:(0* — £}. Desde este punto de vista las desigualdades del $ 16 pueden 
llamarse locales. 

Demostración. Esta afirmación se deduce directamente del teorema 1, 
ya que el segundo miembro en (3) se transforma, cuando A = q/l, en 
P(nJ+H). < 

Por lo tanto, vemos que la frontera inferior de los posibles valores de 


M(9* — 0), con grandes valores de n, se distingue poco de la frontera 
F alar 


Z= | Sig aue es igual al valor de M8 0) para la estimación 
R-eficiente 03. Esto muestra que es racional utilizar las estimaciones eficien- 
tes, puesto que para ellas, cualquiera que sea la función q, casi se alcanza 
el valor extremal de M(0* — 9). 
La estimación (7) es inmejorable, lo cual es confirmado por el 
Ejemplo 1. Sea X € 94,1. Como sabemos, en este caso (a) = 1. Supon- 
gamos, luego, que el parámetro æ se elige aleatoriamente con una densidad 


suave de q(1), f € (— oo, 00). Entonces el segundo miembro de (7) se transfor- 
ma en (n + H)7!, donde 


H= per dt = Min gía) Y. 


Es nuestro caso, la estimación bayesiana ag, que corresponde a la distribu- 
ción a priori Q con densidad g y que minimiza M(a* — a)?, es igual a 
(véase el § 10) 


OR (Ade 
COC 
v fiat) exp (nxt — Pn/2)dt a fia exp (ni - mar 
fat) exp (nxt — ?n/2)dt [ato exp (nx — 1/2Jdt 
Es fácil hallar la representación asintótica de esta relación y mostrar que 


E mear = 12 0(4), 


(8) 
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No obstante, procederemos más sencillamente, suponiendo que 
1 -6/2 

t= e . 

20-27 


Entonces es evidente que H = 1, y el segundo miembro en (7) se convier- 

te en 1/(n + 1). Pero en el ejemplo 11.1 hemos establecido que 
2 I 
Mía - a) = Tp B 

De este modo, la inmejorabilidad de las igualdades (7) y (3) queda de- 
mostrada. 

Teorema 3. Si el intervalo (a — e, a + £) se contiene en O, entonces, 
para toda estimación 0*, 


Mo" — > 


1 
n máx M) +e 
elment 


team eas e) 


Demostración. Hagamos uso de la desigualdad 
ase 
M0% -> | M0” — Mqli)dt, 
ale 


máx 
100 


válida para toda densidad g(1) que es igual a cero fuera de (a — e, a + £). 
La afirmación necesaria se deduce del teorema 1 si suponemos en éste 


WD = alo = Ecos TEA, y- a< e. 


Entonces 
M.(0* - 0}? > l 
co afida(ddt + [a anar 
onde 
A z 2008-1L sen 31 e 
por des ji Gè CT 
al) pa 2 ml 


Se puede señalar que en la función g(1) = cos? (x1/2) se alcanza el mini- 
1 
mo de la funcional Í (q'(1)P/g(0dt en la clase de todas las densidades 
EN 


derivables q(£). 

Del teorema 3 se deduce, en particular, que el intervalo de valores de 
8 para los cuales la estimación 0* es supereficiente no puede tener una longi- 
tud mayor que O(1/VA). 
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3. Desigualdades en el caso cuando la función g(0)/1(8) no es derivable, 
Si la función ho = q/7 no satisface las condiciones del teorema 1, es válida 
la siguiente afirmación útil que permite estimar la asintótica de M(9* — 0)? 
en el caso general. 

Teorema 4. Supongamos que la sucesión de funciones hit), depen- 
dientes del parámetro e > 0, es tal que cada función h satisface las condi- 
ciones del teorema 1 y 
1) hi) < O A 

= [M0 
DH(e) = f g A< 
Entonces, para todo e > 0, 


M(0* - 0 > 


hedi)? 
nJ + H(e) * 
La demostración se deduce directamente del teorema 1 si se toma 
hahe 
Del teorema 4 obtenemos el siguiente colorario importante. 
Teorema 5. Si la función q es integrable según Riemann, J < œ, en- 
tonces 
MO" — 0P > ŽA +50), 
donde ôn = o(1) cuando n = co, 
Demostración. Pongamos ĝ;(t) = meingi: +u), 
luce 
= [O si ln > e, 
qe) f si A(N) < e, 
l(t) = máxte, 1(0), 


tre 


1 gy) 
hO i D do < hal. 


Es evidente que la función Ae es finita y derivable para cualquier £ > 0. 

Del hecho de que g(1) es integrable según Riemann se desprende que 
q(t) t alt) casi en todas las partes cuando e — 0. Para demostrar esto cer- 
ciorémonos de que 


$ lato) — asar 10. 9 


De la integrabilidad de q(f) según Riemann se deduce la convergencia 
E 20251 falda 


E alk + 169251 faide 
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cuando ô— 0. Por eso 
f aldi > E queje = 


= ¿(Aexo + Djesttar + Deja) - faar 


La relación (9), y junto con ella la convergencia de qe(() t g(1), quedan de- 
mostradas. 

20) 

1 


Utilizando ahora esta convergencia, obtenemos 0] T holt), 


4 
fanar = jg ES 


2e Z] 


get) 26) 
= + [0 Tay “= po dtt J. 
Además, 
hiw = gelt +€) _ qeli — £) a 
eE Ire) Tte) => 


HO < KES y dt. 


Ahora podemos hacer uso del teorema 3. Suponiendo £ = e(n) = n~ 1, 
n= œ, obtenemos e(n) — 0, 


2 
mor -o > POR Lao. a 


4. Algunos corolarios. Criterios del carácter asintóticamente bayesiano 
y minimax. Una de las principales conclusiones que pueden sacarse de los 
resultados de este párrafo consiste, hablando en general, en lo siguiente. 
Si existe la estimación asintóticamente R-eficiente, cualquiera que sea otra 
estimación que tomemos, no obtendremos “en total” (o “por término me- 
dio”) un resultado asintóticamente mejor. Utilicemos este hecho, más tarde, 
en el $ 25. Aquí sólo expondremos los criterios del carácter asintóticamente 
bayesiano y del carácter asintóticamente minimax que se desprenden direc- 
tamente de los teoremas 2 y 5. 
Definición 1. La estimación 0f, que posee la propiedad 


Mn(0? — 0) = J + 0(1) (10) 
cuando n > œ, se llama R-bayesiana asintóticamente. 


Son las estimaciones para las cuales se alcanza asintóticamente la fron- 
tera inferior de las desviaciones estándar, definida en los teoremas 2.5. Las 
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mismas también podrían denominarse estimaciones R-eficientes “en total” 
(o “por término medio”). 

Recordemos (véase el $ 11) que la estimación 9? se llama asintóticamente 
bayesiana (con respecto a la distribución Q) si para cualquier otra estima- 
ción 0% 


lím sup [Mn(0? — 0) — Mn(0* — 07] < 0. an 
pie 


Corolario 1. Supongamos que se cumplen las condiciones del teorema 
1 y que la funcióR q(t) es integrable según Riemann. Entonces una estima- 
ción asintóticamente R-bayesiana es asintóticamente bayesiana. 

Demostración. Supongamos que 9? es una estimación asintóticamente 
Rebayesiana. En virtud del teorema 5, para toda estimación 0*, 


lím inf Mn(9* — 0)? > J. 


De aquí y de (10) resulta (11). 

También está claro que si existe una estimación asintóticamente 
Rebayesiana, toda estimación asintóticamente bayesiana será R-bayesiana 
(compárese con las observaciones referentes al teorema 16.3). 

Del teorema 5 también se desprende el 

Corolario 2. Supongamos que se cumplen las condiciones del teorema 
1 y que la función q(t) es integrable según Riemann. Si 0% y 0% son dos 
estimaciones asintóticamente R-bayesianas, éstas son asintóticamente equi- 
valentes desde el punto de vista siguiente: 


Mn(0? — 01) > 0, (07 — OBVA 70, 
donde la convergencia en probabilidad se entiende respecto a la distribu- 
ción compatible de X y 0 en Z™ x 0. 


La demostración es completamente análoga a las demostraciones de los 
teoremas 8.2, 16.4, La igualdad inicial (8.11), en virtud del teorema 5, da 


lím sup Mn(67 — 0 <0. < 
En los $5 8 y 11 hemos señalado que para comparar las estimaciones, 


a la par con los valores medios [q(()M:0* — 1'dt, pueden considerarse 
los valores máximos 


sup Ma0* — 1}, T CO. 
En calidad de T se toma todo el conjunto © o la parte de éste que, según 


datos previos, contiene el valor desconocido de 9. Recordemos que la esti- 
mación ĝ* se llama minimax cuando para toda estimación 8* 


sup M; Be — 1? < sup M0" — 0°. 
te tT 
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La estimación 0? se llama asintóticamente minimax cuando para toda 
estimación 0* 


Lim sup sup MAVA(0? — DI? < im inf sup MAYO" — OP. 
rd mm e 


Corolario 3. Supongamos que la información de Fisher 1(0) existe y 
es continua. En este caso, si para cualquier segmento Y C O, 


lim sup sup Mi[V7(0? — D? < sup 17 HO, a2) 
ner w tel 


entonces la estimación 07 es asintóticamente minimax. 
Demostración. Es suficiente convencerse de que para cualquier estima- 
ción 0%, 
lim inf sup MAVA(0* = DJ? > sup IT KO. (13) 
ano n te 


Para cualquier distribución Q en T, con una densidad suave q(/) respecto 
a la medida de Lebesgue, 


sup MAVA(0* = D? > [MuVa(o* — adt. 


Según el teorema 2, la integral del segundo miembro es para cualquier esti- 
mación 6”, no menor que J — H/n. Por eso el primer miembro de (13) es 
mayor o igual a 


J= 1 daa. 
Pero q es una densidad suave arbitraria y, para un valor dado de £ > 0, 
la misma siempre se puede elegir, en virtud de la continuidad de 17 '*(0), 
de modo que 
PAN 
J> spr 0- e. 


En vista de que e es arbitrario, (13) queda demostrada. < 

En conclusión de este apartado es necesario hacer una observación im- 
portante, que consiste en que, al buscar las estimaciones asintóticamente 
óptimas, es posible limitarse a la clase Ño de estimaciones asintóticamente 
no desplazadas, que hemos introducido en el $ 16. Esto se deduce de las 
consideraciones siguientes. 

Ya hemos señalado que el segundo miembro de la desigualdad del teore- 
ma 5, equivalente a J/n + o(1/n), no depende absolutamente del desplaza- 
miento b(8). Al mismo tiempo, si al construir la frontera inferior de 
M(0* — 0) partimos de la desigualdad de Rao—Cramer dada en el $ 16, 
entonces obtendremos 


MO" - 0) > mín faw [re + #o] dt. 
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Se puede mostrar (compárese con [47]) que este valor mínimo de todos 
los desplazamientos b(0) tiene (con ciertas suposiciones acerca de la suavi- 
dad de a(t) y 1(1)) esa misma forma J/n + o(1/n) y (lo cual es esencial 
para nosotros) se alcanza en el desplazamiento b(9) que posee, cuando 
n> eo, las propiedades 

b' (t) = ol), b) = ALVA). 

La clase de estimaciones 0* con tales desplazamientos es precisamente 
Ko (véase el $ 16). La salida de 0* de la clase Ko hace inaccesible la frontera 
J/n + o(1/n). Ahora bien, en el enfoque asintótico, cuando las estimacio- 
nes asintóticamente normales se comparan con ayuda de los valores de 
M(0* — 0)? cuando son suaves g(t) e I(t), es posible limitarse a examinar 
las estimaciones de la clase K = Ks,2 Ko (hemos examinado la clase Ke, 
en el $ 8), puesto que las estimaciones fuera de la clase Ro son “inadmi 
bles” desde el punto de vista antes indicado. 

5. Caso multidimensional. En el caso de 0 € R* se pueden obtener los 
análogos para todos los teoremas de este párrafo y hacer las mismas deduc- 
ciones que hemos obtenido para el caso unidimensional. 

En particular, la afirmación del teorema 5, uno de los principales en 
este apartado, tendrá la forma 

d? > J/n + o(l/n), 
donde d? = idyll, dy = M(0— 8:)(07 — 8), J = MI" (0). 

Los razonamientos relacionados con las estimaciones bayesianas y mini- 
max también conservan su validez cuando en calidad de error de la estima- 
ción se considera el valor 

v(8*) = Ma(0* — 0) V(6* — 0)7, 
donde V es una matriz definida no negativamente. Deben llamarse estima- 
ciones bayesianas o minimax (o asintóticamente bayesianas y minimax) las 
estimaciones cuyos errores satisfacen las desigualdades respectivas para 
cualquier matriz V definida no negativamente. 


$ 21. Distancias de Kullback—Leibler, 
de Hellinger y x?. Sus propiedades 


Los resultados de este párrafo serán esenciales para la obtención de los 
resultados principales de la teoría asintótica de estimación, así como para 
los resultados del cap. 3. 

1. Definiciones y propiedades principales de las distancias. 

Sean P y G dos distribuciones en (2 B+) absolutamente continuas 
respecto a la medida x. Designemos 


d "B =8 
Np es el portador de la distribución P: Np = (VX p(x) > 0]. 
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Definición 1. Se llama distancia de Kullback—Leibler entre las distribu- 
ciones P y G la magnitud 


E Pp) = pix) 
(P, G) f in e P(dx) f ln no) pJu(dx). 

De hecho gs(P, G) no es, por supuesto, una distancia o una métrica 
en sentido general, ya que ex(P, G) no es una función simétrica de Py 
G. No obstante, veremos que o1(P, G) caracteriza en realidad (desde el pun- 
to de vista estadístico) la desviación de G respecto a P. 

De la desigualdad In (1 + v) — v < 0 y la representación 


al, G)=- j [ná E (£ z DI 


se deduce que siempre q1(P, G) > 0. En el lema 6.1: hemos establecido que 
la desigualdad ọı(P, G) = 0 sólo es posible si P = G. 
Definición 2. Llamaremos distancia x? entre las distribuciones P y G 
la magnitud 
eb, G) = ¡ (IAN 


NÜN p) 


Casi todas las observaciones hechas para la definición 1 se refieren a 
esta distancia. La denominación de x? se explica por razones que serán 
aclaradas más tarde. 

Definición 3. Se llama distancia de Hellinger entre las distribuciones 
P y G la magnitud 


oP, G= | (VPG - VEGY) nda). 
NÜNa 


La distancia de Hellinger ya es la función simétrica de P y G, y el valor 
de Vos(P, G) posee todas las propiedades de la métrica (entre las funciones 
po) y Vglx) en el espacio métrico L2(2; 1). Es fácil notar que 

oP, G) = 21 — [VPF uldx)) < 2. w 

Las tres distancias introducidas desempeñan un papel importante en 
distintos problemas de la estadística matemática. Nos convenceremos de 
ello en cierta medida. 

Si mediante estas distancias se caracteriza el grado de proximidad de 
las distribuciones, cuando la relación p/g es próxima a 1, resultará que to- 
das ellas se comportan asintóticamente igual, con una exactitud de hasta 
los factores constantes. En efecto, valiéndose del desarrollo 


EE) 


421, DISTANCIAS DE KULLBACK — LEIBLER 209 


obtenemos a 
ae © =- [m -puao =3| (8-1) pudo =4 ese, ©, 


et, © = [LL pá) = fos va (1+ E Yu = 
~=40P, 6). 


De la última igualdad también se deduce que ex(P, G) > ex(P, G). 
Además, qr(P, G) > es(P, G). En efecto, como In (1 + x) < x, entonces 


Inž = 21n + ( + (Ve - 1)) <e(Y2 - 1), 
aŒ, &) =- [img ouav > -2( [vor nao + 1) = oŒ, 6). 


En lo sucesivo examinaremos el caso paramétrico y consideraremos que 
se cumple la condición (44). Nos interesarán las distancias gi, į = 1, 2, 
3, entre las distribuciones P = Pe, y G = Po, en (2 Bo), así como entre 
las distribuciones muestrales correspondientes (aquí las designaremos por 
Pô,» P4,) en (2™, B3). (Señalemos que las distancias tienen sentido para 
las distribuciones arbitrarias, y con la naturaleza de los espacios no están 
relacionadas de ningún modo). Si Np,, C Np,, podemos escribir 


Pa o) = [ini aa = Ma m ED, 


Un Lay Sel) 
AA G 


Ra, Po) = for - ATi uao =Ma ( 


Si no se cumple la condición Nps, C Nps, entonces g2(Po,, Po), 
es(Po,, Po,) serán mayores que las esperanzas matemáticas correspondien- 
tes en (2). 

Cabe señalar que a la par con (2) tiene lugar la siguiente igualdad útil 
que se desprende de (1): 


Ma VIn) = [NT COJO pldx) = 


Pn Pa) = | 


s1- oPn Pa) O 


La relación entre las distancias @:(Pe,, Po,) y (P4, P;,) se establece por 
la afirmación siguiente. 
148030 
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Teorema 1, 
Ps, P3) = no Pos Po), 
1+ Ph P3) = (+ Po P3)", (4) 


A (1-3 Pa Po) 


La demostración es casi evidente si se supone, para abreviar, que 
Npe, C Nro, (en el caso general los cálculos conservarán, de hecho, su va- 
lidez, pero serán un poco más voluminosos). En efecto, en este caso pode- 
mos hacer uso de las igualdades (2). Entonces la primera de las relaciones 
(4) se deduce directamente del hecho de que 


ISS ON 
PO Ta 
Seguidamente, en virtud de (2), 
1+ Pos Po) = MaS 01), 
1- Po, Po)/2 = MI MAD > 


y las relaciones de este mismo tipo son válidas para las distancias entre 
P;, y P;, (sustituyendo en los segundos miembros xı por X). Como 


PaO Ne T (dye fad y" 
wi (w) e I ( 0) 7 [me Ta) ] i 
de aquí, cuando a = 2 y a = 1/2, obtenemos (4). 


Le recomendamos al lector que demuestre este teorema en el caso gene- 
ral (o sea, cuando no se cumple la condición Npy, C Npp,). < 


Del teorema 1 se desprende el 
Corolario 1. 


lPi, Pa) < nosPo,, Po). 
En efecto, 1—$"<(— f)n para cualquier 8 >0. Suponiendo 
B= 1-1 0s(Pn, Po), obtenemos de (4), 


oPh, P3) = Al — B°) < 21 — Bn = noPe,, Po). < 


2, Relación de las distancias de Hellinger y otras con la información 
de Fisher. Entre las tres distancias introducidas en el apartado anterior, 
en lo sucesivo, la distancia de Hellinger tendrá para nosotros, el mayor 
interés. Al mismo tiempo, el carácter de las afirmaciones principales, ex- 
puestas más abajo (teoremas 2 y 3), y el carácter de las demostraciones 
serán iguales para las tres distancias. Por eso, para abreviar, nos limitare- 
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mos, en este apartado, a estudiar la distancia de Hellinger, que designare- 
mos (omitiendo el índice del símbolo 3) del siguiente modo: 
Pos Po) = | (Vo, — Vo Palax). 
Pongamos r(01, 02) = oPs,, Po»). 
Lema 1. Si fo(x), para ct. |p] valores de x, es continua respecto a 0, 
01 % 02, entonces 
r(0”, 0”) rlr, 02) 


A? Ta z 


gmi 
eo 


Si la función Nfa) , para c.t. [p] valores de x, es derivable respecto 
a 0, entonces 


lim m w, (6) 
Además, 
1 
e | 101 + (02 — 0)yldy. o 


Aquí se supone, claro está, que los valores de 8’, 0”, 61, 02, 0 pertenecen 
að. 

Demostración. Para verificar (5) es suficiente utilizar el lema de Fatou 
y la continuidad de fs(x) en la relación 


lim ir LON E lím 9 ins (A ENE ndo) 
di, infr + i =>" 
90 $ 


En vista de que, cuando 9; = 02 = 9, la expresión subintegral en la última 
integral es igual a (/7)/(4fo), obtenemos (6). 


Para demostrar (7) pongamos a = 6, — 61 y representemos el incremen- 
to V, — Vfo, en la forma 


i 
A ET 

A d =5 d) 
2 | Y 2 l Si T 
En virtud de la desigualdad de Cauchy—Buniakovski, 


1 1 
fro ¿Pe | Viror 
Fez w] E | Ja + ay 


Utilizando la negatividad de la función subintegral, podemos cambiar el 
10 


Wie -Va Y = 


dy. 
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orden de integración en las relaciones siguientes: 
1 


a 2 1 
A Jo) fre + ay)da. 
4 


a 


La desigualdad (7) queda demostrada. < 
Pongamos r(A) = r(0, 0 + A). Del lema 1 se deduce directamente el 


Teorema 2. Si la función Vfo(x) , para c-t. [a] valores de x, es derivable 
respecto a 6, e 16) es continua, entonces es 
ría) - 10) 
ME © 
Observación 1. Esta afirmación también será válida para las distancias 
e1 y @2 si suponemos 


ría) =i ao, Posa), (A) = y eio, Posa). 


En este caso, la relación (6) se demuestra exactamente igual que en el 
lema 1. La demostración de (8) puede exigir la utilización de condiciones 
adicionales de regularidad (próximas a las condiciones (R)) que aseguren 
la validez del paso límite bajo el signo integral. 

Así pues, qu(Po, Po+ a), į = 1, 2, 3, se comportan asintóticamente igual, 
e 1(0) caractariza la velocidad de su tendencia hacia el cero cuando A ~> 0 

pues 4 K(0) es la segunda derivada de r(v) en el punto v = 0). 
Si se pone r'(A) = o(P3. a, P3), entonces, de los teoremas 1 y 2 re- 
sultará 
lím 
a~o 
Estas mismas relaciones se mantendrán para las distancias Q1 Y Q2 

3. Existencia de fronteras uniformes para r(4)/A? En lo sucesivo, la 
existencia de tales fronteras nos permitirá obtener estimaciones muy útiles 
para los momentos de relación de verosimilitud. 

A fin de simplificar la exposición o evitar la introducción de otras con- 
diciones más voluminosas, en las investigaciones posteriores a menudo esti- 
maremos que se cumple la condición 

(Ac): el conjunto O es compacto. 

Desde el punto de vista de las aplicaciones, esta condición, que significa 
el carácter limitado y cerrado del conjunto paramétrico, por lo general, 
no es limitativa. 

Más adelante también utilizaremos la condición (40) que hemos intro- 
ducido en el $ 6 y que significa que fo, # fo, cuando 0, 4 62 Con esta 
condición, r(91, 82) > 0 cuando 8, x 62. 


ra) _ n0) 
pa ELO 
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Teorema 3. Si se cumplen las condiciones (Ao), (4c), y 0 < 10) < 
S< 4h < œ para todos 9 € O, entonces existe una constante g > 0 tal que 
para todos 01, 02€ 0, 
r(61, 02) 


¿Sp ar <% 19) 


Demostración. La estimación superior se deduce directamente de (7). 
Mostremos ahora, que 


ribs, 62) 
. 1 
ne [o hi >2>0. (10) 
Supongamos que (10) no es cierta, entonces habrá una sucesión (8%, 4” 
tal que 
a) ga 
Ae, Y y an 


cuando n —> œ. En virtud de la condición (4.) podemos considerar, sin 
limitar la generalidad, que 0”? — 6, € O, 8? — 6, € O. Si 6, % 62, entonces 
(11) contradice (5), ya que, en virtud de la condición (4o), r(01, 02) > 0. 
Pero si 61 = 6, entonces (11) contradice (6), ya que 7(8) > 0. El teorema 
queda demostrado. 

4. Caso multidimensional. En este apartado obtendremos los análogos 
delas afirmaciones de los puntos 2 y 3 para el parámetro multidimensional 
(el contenido del punto 1 no está relacionado con la dimensión de 0). Desig- 
nemos por p(x, 6) la función vectorial con coordenadas 


= 1 0) 
Er Tr UE 


Entonces la derivada de la función VJa(x) en el sentido del vector unitario 
= (om. +» e) es igual a (IDV, 4) = (graa VIG , o) =$ (00%, 
0), w). La matriz de Fisher 7(0) en estas designaciones es igual a 
10) = fø", 0), pls Putdx). 


Supongamos que |u| significa la norma euclídea u = (u1, ..., ux). 

En el caso multidimensional tiene lugar la siguiente generalización del 
lema 1. 

Lema 1A. La primera afirmación del lema 1 (véase (5)) conserva por 
completo su validez cuando k > 1. 

Si la función Nfa) , cuando ca. lu] valores de x, es derivable respecto 
40,00, 0" =0' + wð, o” =w, lw”| = Jull, 30, entonces 

lim int ¿e > q ao. a» 
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Además, si w, ju] =1 es un vector colineal a 62 — 61, de modo que 
02 = M + aw, a = |h — 6, entonces 


a <} f P EE a3 
è 


Demostración. La primera afirmación del lema 1 no está relacionada 
con la dimensión. La segunda se deduce del lema de Fatou y de las rela- 
ciones 


i P 
tím ner > fim id ndx) = 


-1 fc 0), ould) = aloja”. 


Para demostrar (13) indicaremos que 


Vio -a =3 | (o, + yu), ady = 


stemma 


=% j (olx 01 + ayw), wdy; 


1 

2 

rOn 0) = f [ | (els 01 + ayu), ay] as < 
y 


, 
2 
<E | | 6005 0 + aya), ayudo = 
a 


; ) 
E f $ ot 0 + ayu, oPuiddy = | all, + ayajaTdy. a 
z 

Pongamos, como antes, r(A) = r(9, 0 + A). Del lema 1A se deduce el 


Teorema 2A. Si la función JJa) es derivable cuando c.t. |u| valores 

de x, y la matriz 1(0) es continua, entonces para cualquier vector w de longi- 
tud unitaria existe 

lím 

30 

Al igual que en el caso unidimensional, del lema 14 también podemos 


obtener el corolario siguiente. Designemos por Sp 1(6) la traza de la matriz 
KOJ 


r(ôw) _ 1 T 
lO. 
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Teorema 3A. Si se cumplen las condiciones (Ag), (Ae), y la matriz 1(9) 
es positivamente definida en O, 4h = sup Sp 1(9) < «o, entonces existe una 
constante g > 0 tal que para todo ee <0 

Br, 


ret (14) 
Demostración. Designemos por A1(8) y Ax(8) los números propios, mí- 
nimo y máximo, respectivamente, de la matriz /(6), así que cuando |w] = 1, 


A(O) < lO)” < Ar(8). (15) 
Según las condiciones del teorema, A1(0) > 0 siempre en O. Como 
(o, WP < lo? = A g} entonces 


[ (o, Pu(dx) = wl(0)w7 < Spr(0) 
y 


y, por consiguiente, Ax(0) < Sp1(0) < 4h. De la desigualdad (13) obtenemos 
1 


rió, 0) 
Axt0 
a <| a(r + ayu)dy < h. 


Demostremos ahora la segunda desigualdad en (14). Supongamos que 
ésta no es cierta. Entonces, al igual que en el teorema 3, habrá una sucesión 
(0, 8), 0 —0,€0, og — MeO, para la cual será válida (11). Si 
01 # 0), esto contradirá (5). Si 0, = 0 = 0, entonces, en virtud de la com- 
pacticidad de la esfera |w| = 1, se puede considerar, sin limitar la generali- 
dad, que 9% = AY + Sw, w — w, W™]| = lo] = 1. Pero en este caso 
(11) contradirá (12) y (15). < 

5% Relación entre las distancias sujetas a examen y las estimaciones. 
Examinemos la distancia de Kullback—Leibler entre la distribución Po y 
la distribución G que no depende de 0: 


aG, Po) = fng E Gan - | maea. 


Aquí sólo depende de 8 el e sumando 
A(Po, G) = — | In fe(x)G(dx). 


Por otro lado, recordemos que la ev.m. ha sido definida en el $ 6 como 
valor de 9 con el que se minimiza d(Po, Pf). Si la distribución de xı es 
discreta, y p es la medida de cálculo, entonces la expresión 


dP}, Pp = -|m Pi pao 
p 


tiene sentido, gı (P4, Po) = d(Pa P?) — d(Pz, Ps) y, por consiguiente, pode- 
mos considerar que la ev.m. minimiza la distancia de Kullback—Leibler 
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ex(Ps, Po) entre Po y Pf. En cl caso general tal interpretación puede ser 
aceptada sólo convencionalmente. 

Para las distribuciones discretas de xı también se pueden examinar las 
distancias e(Pa P% cuando į = 2, 3, así como las estimaciones que minimi- 
zan estas distancias. Por ejemplo, cuando = 2 obtenemos 


O) kl 


donde », es el número de elementos de la muestra, los cuales han caído 
en el punto æ, para el cual fo(as) = Pa({a} > 0. Esta es la estadística x? 
(véase los $$ 7 y 8), debido a lo cual también hemos dado tal denominación 
a la distancia 2. 

En vista de que las distancias o; poseen propiedades asintóticas seme- 
jantes, las estimaciones que las minimizan, como será aclarado más tarde, 
coincidirán asintóticamente. 


AE 
aP, ra= Y) ( z se) 
; 


$ 22* Desigualdad de diferencias del tipo Rao—Cramer 


Este párrafo está un poco apartado de la exposición principal. Aquí tratare- 
mos de responder, aunque sea parcialmente, a la pregunta acerca de qué 
es lo que ocurre con la frontera inferior admisible para Ma(9* — 0)? en 
el caso irregular, o sea, en el caso cuando la función f(x) no es derivable 
respecto a Ó o cuando 1(9) = «o. 

Comenzaremos por el ejemplo que muestra que, en estas condiciones, 
el comportamiento de las desviaciones estándar (o de sus varianzas) puede 
diferenciarse totalmente del segundo miembro de la desigualdad de Rao— 
Cramer. 

Ejemplo 1. Sea X € Uos Aquí, la condición (R) no se cumple, ya que 
la función fo(x) es discontinua. Como sabemos, para esta familia estadística 
S = máx x es completa y suficiente (véase el ejemplo 14,3). Tomemos la 
estimación no desplazada 0* = 2x1. Entonces, en virtud de los resultados 
obtenidos en el $ 14, la estadística 03 = 2Mo(x1/S) será eficiente, Calcule- 
mos el valor de Mo(x/5). Como Pa(S < z) = (2/0), z €[0, 0], entonces 
S tiene una densidad igual a nz"”!/0" en [0, 6] e igual a cero fuera de 
ese intervalo. Para hallar la distribución condicional P(B/s) = Po(x1 € 
€ B/S) = s) de la magnitud xı, a condición de que S = s, utilizaremos la 
regla (10.2): 


Po(x € dy, S€ ds) 
Pa(S € dx) A 


P(dy/s) = Pel €dy/S = s) = 
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Aquí el numerador es igual a 


m 
¿AE A 

ai 
Pii edy Sedo) = HG cuando y = s 
o cuando y > s. 


De aquí se deduce que P(dy/s) = e cuando 0<y<s 
PUs1/5) = 1/n. Por lo tanto, 


nS 


e o= s(: + 3) 


D0? = Ma(03) — È = [ro y ae 


Mox/S) = ptr +3 SD +5. ntl s 


n+l PRES. 
e E 3 i)e -y 0 

Como 03 es eficiente, para toda estimación no desplazada 0*, 
DA Fa" 9 


Ahora bien, para grandes valores de n, la desviación estándar de 
Mo(03 — 0) tendrá un orden de pequeñez de 1/n”. Desde el punto de vista 
de la frontera inferior de la desigualdad de Rao—Cramer, que tiene un 
orden de 1/n, la misma constituye una exactitud anormalmente alta”. Se 
puede mostrar que ésta es la exactitud con la que, a partir de la muestra, 
se determinan cualesquiera puntos de saltos de f(x) prohibidos por la con- 
dición (R)). En el ejemplo 7.4, dedicado a la estimación de la mediana, 
hemos visto que los puntos donde la densidad /o(x) es infinita, se pueden 
determinar aún más exactamente, así que, en términos generales, cuanto 
mayor sea la alteración de la regularidad en el punto, tanto más exactamente 
será apreciado este punto por la muestra. Digamos, si X € Po, donde 


Po 3 Usos 3 o, lo es la distribución concentrada en el punto 0, entonces 


* Para el parámetro 0 también existen estimaciones cuya varianza tiene el orden de 1/n. 
For ejemplo, para la estimación 6™ = Z? tenemos MI" = 0, DO" = $ Da, E. 
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PAS % 0) = 27 US = máxxy), así que la varianza de 9*-— 6, cuando 
0* = S, decrecerá exponencialmente con el aumento de 7. 

¿Será posible en estas condiciones indicar la frontera inferior para la 
varianza de las estimaciones? Más adelante obtendremos una desigualdad 
análoga a la de Rao—Cramer, mediante la cual tales fronteras pueden ser 
construidas cuando las condiciones de regularidad son menos rigurosas que 
la condición (R). 

Solamente supondremos que se cumple la condición (A,), aunque tam- 
poco eso tiene mucha importancia (véase la observación al final del 
párrafo). 

Designemos por Ap(0) el incremento de la función p(0) en el intervalo 
$ 0 + A); por Nb, el portador en 2” de la distribución de la muestra: 

= (x fx) 0) y pongamos N” = NPU Np,.a. 

iora 1. (Desigualdad de Chapman—Robbins). Sea 0€8, 
0 + A&O, alð) = M9? Entonces, para cualquier A # 0, 


Do9" > (AO)? = ato o 
fra) Pisa PO 


donde q es la distancia x? examinada en el $ 21. Aquí, para las estimaciones 
no desplazadas es necesario sustituir el numerador por A. 


En virtud del teorema 21.1, el denominador en (3) tiene la forma 
ele. a, P3) = (1 + n(A)" — 1, donde 


[EC 

(A) = = = (dx). (4) 

ra) = Posa Po = SERE pan C) 

Ahora bien, cuanto mayor sea la distancia q(Po+a Po) entre Posa 

y Po (al ser registrado A), tanto menor será la frontera inferior para DO*. 

Si Posa es absolutamente continua respecto a Pe entonces 

Nisa C Np, = N” gPó+a Po) puede escribirse en la forma (véase 
Q12) 


Pisa P3) = mo]: ; 


Afolx:) P 
¡álogament: A) = Mo 1 + 
análogamente, r2(4) »[: FACA] 

Pero si la distribución Pe+a no es absolutamente continua respecto a 
Pa entonces existe un subconjunto de Np,.. de medida positiva Po+ a en 
el que f(x) = 0, así que la integral en (4) se vuelve infinita, y la propia 
desigualdad (3) se vuelve trivial. Es necesario señalar otra vez, que en este 


caso la expresión Me[A/a(X)/fa( X), entendida como integral respecto a 
Npe, Puede permanecer finita. 
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Demostración del teorema 1. De lo dicho anteriormente se deduce que, 
sin limitar la generalidad, podemos considerar que Po, 4 es absolutamente 
continua respecto a Po, así que N7,.. C Nẹ, = N”. Como falx) y fo + a(%) 
es la densidad en 2”, entonces 


JA" (dx) = 0. 
Además, 
JOACE" (dx) = Aa(0). 
De aquí se desprende que 
$ (0* — a(8NAfo(x)n"(dx) = (0). 65) 
> 


En el conjunto N" podemos representar la función subintegral de (5) en 
forma del producto 


O = CORO > GE 


Aplicando luego la desigualdad de Cauchy—Buniakovski, obtenemos 


Lex) 


En lo sucesivo, según las observaciones hechas más arriba, nos limitare- 
mos, al igual que en la demostración del teorema 1, al caso cuando Po, a 
es absolutamente continua respecto a Pe (de lo contrario la desigualdad 
(3) se vuelve trivial). 

Corolario 1. Si se cumplen las condiciones de regularidad que aseguran 
la existencia (véase la observación 21.1 al teorema 21.2) de 
Mom ra(AY Aa? = 1(0), entonces 


3 
(4060)? < [or ornon | AD ax. a 
a 


ba 


Gaa 
Der > O, © 
donde a', (0) = lím sup 240. 


Para obtener (6) del teorema 1 sólo es necesario notar que podemos 


elegir la sucesión A ~> 0 de modo que 200 sab). <a 

La desigualdad (6) es, según su forma, cierta generalización de la desi- 
gualdad de Rao—Cramer (generalización, lo más probable, ficticia, ya que 
las condiciones de regularidad mencionadas conducen, por lo visto, a la 
existencia de a’ (8)). 
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La desigualdad (3), por supuesto, se denomina desigualdad de diferen- 
cias, a distinción de la desigualdad (6) que podría denominarse desigualdad 
diferencial. 

Ahora bien, si 12(4) ~ 1(6)4? (esto corresponde al hecho de que fo es 
derivable), entonces de la desigualdad de diferencias de Chapman— 
Robbins se deduce la desigualdad diferencial de Rao—Cramer. 

Pero si la función fa no es derivable, entonces, al disminuir A, el com- 
portamiento de n(A) será diferente. 

Si, digamos, fo es derivable en todas partes, a excepción de un número 
finito de puntos de discontinuidad 0 = 6(x) que dependen de x, entonces 
tendremos 


n(A) ~ clal. 0) 


Esto puede ser aclarado de la forma más sencilla a base de un ejemplo 
muy típico, examinado al principio del párrafo. 

Sea X € Uo,s. Para que sea cumplida la condición de continuidad abso- 
luta de Po, a respecto a Pa en el caso de Pp = Uo,o consideraremos que 
A <0, |A| < 6. Entonces 


TT -p Para xe lo, 0 + A), 
Afix) = 4- 7 para x€ [0 + A, 6, 
0 para xg[0, 6], 


, exa 4 
MA i Peo A 
nía) | E ay j LJ ee: A ir dx = 


= m n + Jal. . 
9(0 + A) 0 

Lo esencial aquí es la existencia del intervalo cuya longitud es compara- 
ble con A y en el que |Afe(x)| > c > 0, donde c no depende de A. Esto 

asegura precisamente el orden de pequeñez (7) para ra(4). 
Volviendo a nuestro ejemplo, vemos que para las estimaciones no des- 

plazadas del parámetro 9, 
e 
» 
E A a 
0 0(0 + A) 
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¿Cuál es el orden de pequeñez del segundo miembro de esta desigualdad 
cuando n > œ? Suponiendo |A| = y6/n, obtenemos 


2 


Do" > D, máx r 
ES CEE 
a tna- y 


Está claro que la expresión con signo máx es asintóticamente equivalen- 
te a h = máx y/(e' — 1) = 0,65, así que 


De* > + (A + o(1). 


En cuanto al orden de pequeñez, esta desigualdad tiene el mismo segundo 
miembro que la desigualdad inmejorable (2), pero el factor constante de 
&/n? en (2) es “mejor” y es igual a 1. 

A la par con (7) pueden aparecer también otras velocidades de conver- 
gencia de r2(A) hacia el cero, cuando A — 0. Podemos obtener, por ejemplo, 
tanto ra(A) ~ cA“, a < 1, si fo(x) tiene líneas de 0 = 6(x) const, al apro- 
ximarse a las cuales fa(x) — co; como también ra(4) ~ cA%, 2 > a > 1, si 
Jo es continua respecto a Ó pero no es derivable sino satisface solamente 
la condición de Hólder en el entorno de cierta línea 9 = 0(x) # const. No 
es difícil ver que el orden de pequeñez 


A E 
n F AFi 


para aœ < 2 será definido por el valor de A = (y/cn)””, así que 


(+ o(1)). 


1 
D0* > — 7 máx 
z (cn)? y 


En el caso “regular” œ = 2, el máximo respecto a y se obtiene en el punto 
límite y = 0 (A = 0). 

Concluyendo este párrafo señalaremos que las estimaciones para DO* 
también pueden ser obtenidas, de modo análogo, para las no absolutamente 
bicontinuas Po y Po +» Para esto, en (5) es necesario multiplicar y dividir 
la función subintegral no por Vfo(x), sino por VJ) + fosa). La 
condición (4,) tampoco es tan esencial, ya que las medidas de Ps, y Po+a 


siempre son absolutamente continuas respecto a 3 (Po + Por a). 
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$ 23. Desigualdades auxiliares para la relación 
de verosimilitud. Conciliabilidad de las estimaciones 
de la verosimilitud máxima 


En los $$ 12—16 hemos estudiado las cuestiones relacionadas con la exis- 
tencia y la determinación, en forma explícita, de las estimaciones eficientes 
y Reeficientes. Hemos visto que éstas existen no siempre, ni mucho menos, 
y pueden ser halladas tan sólo en el caso cuando la función de verosimilitud 
tiene una forma especial o cuando conocemos, de manera explícita, la esta- 
dística suficiente completa (la primera de estas condiciones a menudo con- 
duce a la segunda (véase el $ 15). 

Pasemos ahora a la construcción de las estimaciones asintóticamente 
óptimas. Aquí las condiciones de su existencia serán mucho más amplias. 
Los resultados respectivos se apoyan, ante todo, en las propiedades asintóti- 
cas de la función 


Z(u) = = exp (LX, 0 + u) — L(X, 0), 0) 


donde, como antes, L(X, 0) = 3 (xs, 6). Por regla general, el número 


9 en (1) se considerará registrado” y representará el valor real del parámetro, 
O sea, tal que X € Pa En este caso Z(u) es la función de los variables u 
y X y, por lo tanto, junto con la función de verosimilitud fo +u(X), será 
la función aleatoria de la variable u. Llamaremos relación de verosimilitud 
la función Z(u) que desempeña un papel muy importante en la estadística 
matemática. La tarea principal de este párrafo y del párrafo siguiente con- 
siste en estudiar las propiedades de Z(u). 

Será establecido que Z(u) es próxima a cero fuera del entorno del punto 
u = 0. En el entorno de este punto, Z(u) se aproxima, desde cierto punto 
de vista, a la función delta, mejor dicho, Z(v/Vn) se aproxima asintótica- 
mente, cuando n > œ, a la función de densidad de la ley normal. 

En los $$ 23—26 examinaremos sólo el parámetro unidimensional. El 
caso del parámetro multidimensional será investigado separadamente en 
el $ 28. 

En las estimaciones posteriores desempeñará un gran papel la distancia 
de Hellinger 


100) = Pera, Po) = | (Viira) — VRO) max) 


entre las distribuciones Po+u y Po. Hemos examinado esta distancia en 
el $ 21. Recordemos que 


O < (u) =2(1= [09 ndo) < 2, 
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así que 


a] Lora 
Ms ON = raro pldx) = 1 — r(u)/2, a) 
MoZ 2) = Q — r(u)/2). 6) 


En lo que se refiere a la familia paramétrica (Po), supondremos en este 
párrafo y en los párrafos siguientes que a la par con (4,) se cumplen las 
condiciones (Ao) a (x) # fo, (x) para 0, 4 01 y (4.) (O es un compacto). 
El hecho de que la última condición es poco importante desde el punto 
de vista de aplicaciones, ha sido mencionado anteriormente. Esto se debe 
a que en los problemas reales, de ordinario es posible señalar las fronteras 
de los posibles valores de 0, partiendo de las consideraciones a priori. Para 
simplificar la exposición, allí donde sea necesario, también supondremos 
que O es convexo (en el caso unidimensional esto quiere decir que O = 
= (0, b], =% < a < b< œ). 

Además, en este párrafo supondremos que la función VJ; es derivable 
para c.t. [u] valores de x, y que la información de Fisher 


= [LY = mo (460 Y 
ro = [roo ndo = Me (Sac) 


es estrictamente positiva y está limitada en O. En estas condiciones hemos 
demostrado en el teorema 21.3 que para todos 8 y ð + u admisibles (o sea, 
tales que 0 € O, 0 + u € ©) para la magnitud r(u) = o(Po +u, Po) es válida 
la desigualdad 


int 20 > g> 0. (3) 


1. Desigualdades principales. Designemos, para abreviar, p(u) = 
= Z“W(u) y supongamos que se cumplen todas las condiciones anterior- 
mente citadas. 


Teorema 1. 
MZ Mu) < e 700%, Moplu) < e7704, (5) 
Melo] < ¿VIO Fuy e=, 


De las investigaciones realizadas en el § 21 se deduce que para los valores 
u = o(1) en estas desigualdades, en vez de g se pueden tomar los valores 
tan próximos como se quiera a 1(8). 


Demostración. En virtud de (3) y (4) tenemos 
MsZ"? (u) = (1 — r(u)/2)" < exp [—nr(u)/2) < exp { — ngu?/2). 
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Luego, en virtud de la desigualdad de Cauchy — Buniakovski, 

Maplu) < [MoZ" (u) MZ)" = [MZ UU)? < e7, 
Volviendo a utilizar la desigualdad de Cauchy — Buniakovski y la relación 
p'u) =F LX, 04020, 

hallamos 
Map’ (u)| = 3 MolL'(X, 0 + IZ (u)Z“(u) < 


<i [Mol "(X, 0 + )PZ()-MZ (u)? < 


Mol A 0 PE, a 
Teorema 2. Para todos z n > 1 
P Z(o/ artes, 
(0 
donde c =2 + 3NTh/g, o= sup 16) no dependen de 0. 
e 
Para demostrar el teorema necesitaremos el 
Lema 1. Para todos x > 0, 
[edo < Vane o”. 

Demostración”. La función característica de la variable aleatoria 

ES Bo, es igual a Mel! = e” "7 y está definida en todo el plano. Supo- 


niendo ¢ = —ix, obtendremos Me™? = e””?, De aquí, con ayuda de la de- 
sigualdad de Chébishev, obtenemos 


PEE > x) = P(e% > e) <e "Me" = e°, a 
Demostración del teorema 2. Estimemos la función 
H(6) = Me sup p(v). 
I>a 
Si v€ [0 + ô, b], entonces 


..0 b-0 
plv — 0) = plô) + f p'(u)du < p(ô) + f lp’ (u)|du. 


* Para grandes x son más exactas las desigualdades siguientes; 


1 
x+i 


i feaa <le-rn, 
X 


las cuales pueden ser fácilmente obtenidas por el lector, comparando las derivadas de las 
funciones sujetas a examen (los valores de las propias funciones coinciden cuando x = œ). 
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Como aquí el segundo miembro no depende de v, entonces 
sup plu) Sp) + | lp’ (u)]du, 
-pr “bs 


H+) = Ms sup plu) < Mop®) + f Molp' (du. 
ki “bė 


De aquí, en virtud del teorema 1 obtenemos 
Ha) < eh 4 Va j TOF uy e gu, 
“$o 


A base del lema 1, 
Hs) < et + $ Vai 1 nuda < 
wa 


< eT + 3 VIE e CRESTA 
veba 


Está claro que una estimación exactamente igual, será válida para la 
función 


H-(8) = sup plu). 
Por eso Dai 
H() < H+(8) + H-(8) < (2 + 3 VTD yes, 
Queda hacer uso de la desigualdad de Chébishev: 
Po(sup Z(t) > e) = Polsupp(t) > e) < HeT, a 
Wss ES 
2. Estimaciones para la distribución y los momentos de la ev.m. Conci- 
llabitidad de la ev.m. 
Teorema 3. Existen valores de c < «o, g >O tales, que 
Po(Vn(Ó" — 0) > v) < ce 70 © 
para todos v y n > 1. 
Demostración. Del teorema 2 se desprende que 
-mn 
Pici sup, d Decor” 
Queda hacer uso de la relación 
116 — 01 > ô) = (sun Z(0 > sup Z(0)] € (29,20 >20 =1) M 
cuando ô = vvn. < 
15—8030 
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Corolario 1. Supongamos que un — œ es toda sucesión indefinidamente 
creciente. Entonces 


(Ó* — OVn/un 7 0. (6) 
No obstante, si un son tales que para cualquier œ > 0 
De < o, 0) 
entonces 
(Ó* — O)Vn/un — 0. (10) 


Estas relaciones son, evidentemente, las amplificaciones de la conciliabi- 
lidad (ĝ* — 0 3 0) y de la conciliabilidad fuerte (6 — 0 — 0) de la ev.m., 
respectivamente. id 

Demostración. La relación (8) se deduce directamente de (6) si en esta 
última se pone v = óun. La relación (10) también se desprende de (6), ya 
que la suma de los segundos miembros en (6), al cumplirse (9), formará 
una serie convergente. < 

Por ejemplo, incluso una sucesión tan lentamente creciente como 
un = Inn satisface la condición (9), así que” 


(6* — O/n/nn = 0. 


Corolario 2. Existe un valor cı < co, no dependiente de n y 0, tal que 
para todo œ < 8/5, 
Moexp lalu *)?) < ci, donde u* = Vn(Ó* — 0). a) 
Demostración. Integrando por partes, obtenemos 


Me“? = — [ertar(il > v) = 1 + 2a ji ve""P(E| > v)dv. 


č 
Por eso, en virtud del teorema 3, 


Moet” <1 + E verda <o a 


es 
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En el párrafo precedente hemos establecido una serie de desigualdades para 
Z(u). Determinemos ahora la distribución límite para tales funciones ale- 
atorias. Esto se hace cuando se cumpla la condición (R) del $ 16. No obs- 
tante, para simplificar los razonamientos, introduzcamos ciertas 


% De la observación 25.2 resultará que (10) también es válida para ua que crecen aún 
más lentamente. 
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suposiciones adicionales que no siempre están relacionadas con la esencia 
de la cuestión, pero hacen más breves y más claras las demostraciones. 

Designemos con el símbolo (RR), las condiciones introducidas para in- 
dicar asimismo que tales son las condiciones de regularidad y que ellas 
intensifican las condiciones (R). 

Condiciones (RR): 

1) se cumplen las condiciones (Ao), (4.), (R). 

2) la función lx, 0) para c.t. [u] valores de x es dos veces continuamente 
derivable respecto a 0. La función |!” (x, 1)| es mayorada por la función 
Kx) que no depende de t: |1” (x, 1)| < Kx), para la cual la integral 

Mx) = [1 Ia(ax) 


converge uniformemente en te 9”, 
Por convergencia uniforme de la integral entendemos la convergencia**? 


sup | 100d(d)=>0 
a 00]> N 
cuando N — oœ, 
Posteriormente necesitaremos las dos propiedades siguientes, que se de- 
ducen de (RR): 
1) Validez de la derivación doble respecto al parámetro bajo el signo 
de integral en la igualdad 


[/acoutdx) = 1 
que significa la validez de las relaciones 
[ular = 0, [Sib0u(dx) = 0. 0) 
2) Convergencia uniforme de la integral 
KO) = |U (x, OP foGOn(a). 
(esta propiedad se deduce de (R) y se necesitará en el § 29). 


> Toda la exposición ulterior conservará su validez si la condición y la existencia de la 
'mayorante se debilitan del modo siguiente: la región O puede ser cubierta por el número finito 


de regiones O, ..., €, de tal modo que cuando 0 € ©; la función /*(x, 6) es mayorada por 
la función &(x) que no depende de t: 17” (x, I < lo, para la cual la integral 
Mela) = |k ¡CIAO 


converge uniformemente en 8 € Oj, j} = 1, ..., 5. 


** Tal comprensión de la convergencia uniforme se halla en concordancia con la conver- 
sencia uniforme utilizada en el teorema 1.5.4. Aquí ella pertenecía a la función /(4) = x. A 


su vez, la misma no es la convergencia uniforme [p(x, O a(dx) para e(x, 0) = 100f:(x) cuando 
se supone que, para N = co, 


sp f (5 Dad) =o 
t nyaan 
15% 
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Para descargar la exposición fundamental, la demostración de estos co- 
rolarios de las condiciones (RR) se da en el Suplemento VI. La exposición 
también se puede simplificar de otra manera: introduciendo en las condicio- 
nes (RR) las dos propiedades mencionadas y despreciando el hecho de que 
en tal forma ellas serán “redundantes”. 

En vista de que 


ON ELN 
ronn, ro o= Ae ( Hoy, 
Ja relación (1) se puede escribir en la forma 

Mol’ (xu, 0) = O, Mol” (xi, 0) = -Moll Cs, 0)? = -10 O 


Ya hemos utilizado la primera de estas igualdades. 

Señalemos un corolario más de las condiciones (RR). Estas últimas son 
mucho más fuertes que las condiciones utilizadas en los $$ 21 y 23 y, por 
consiguiente, tienen lugar todas las afirmaciones de los teoremas del $ 23 
acerca de las estimaciones para la distribución sup Z(v/Vn), y acerca de 
la conciliabilidad de la ev.m. il 

Lema 1. Si se cumplen las condiciones (RR), tiene lugar la continuidad 
1” (x, 0) “por término medio” desde el punto de vista siguiente: 


Mews (xı) = [uz of On(dx) + 0 10) 
para A—0, donde wå (x) es el módulo de continuidad de la función 
1" (x, 0) 

wkx) = sup |Z, 0 + u) — 1" (x, 0)l. 4) 
oro 
«e 
bisa 
Demostración. En virtud del teorema de convergencia mayorable, la re- 
lación (3) será el corolario de la continuidad ordinaria, puesto que en este 
caso w£(x) > 0 para ct. [u] valores de x cuando A—>0 y, además, 


loto) < 21(x). < 
Designemos 


LUX, 0 + v) - L'(X, 0) 
ymíA, 6) = sur O EN + 10)]. 


Lema 2. Supongamos que se cumplen las condiciones (RR), 8n > 0, 
n = 1,2, .... es cualquier sucesión convergente a cero. Entonces, para cual- 
quier 9€ 0 y para X € Po, 


nó, 8) 2 0, yntón, 9%) 2 0. 


En estas relaciones, 10) se puede sustituir por 1(Ó*) y al contrario. 
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Demostración. Demostremos al principio la primera afirmación. Como 
Mal” (xı, 8) = —1(0), L” (X, 0)/n > —1(6), es suficiente cerciorarse de que 


kn) > O, donde 


pen L'(X, 0 + v)-L(X,0) _ L"(X, 0) 
ma) = sup 2 zoj. 


Pero 


md) = < sup $ L"(X, 8 += L, DSA Y ota) = a600, 
iii isi 


donde w4 (x) significa el módulo de continuidad 7” (x, 9), definido en (4). 
Es evidente que para cualquier A > O registrado, cuando n son bastante 
grandes, 


GX) < 2400. 
Además, según la ley fuerte de los grandes números, 
a (Xx) E Mwg (xı) ™ wf. 


En virtud del lema 1, wå — 0 cuando A — 0. De aquí se deduce que 
TEO z0. (5) 


La primera afirmación queda demostrada. De (5) y de la definición de 
la convergencia casi segura se desprende que a la par con (5), 


Dr A) 7 0 


para toda sucesión de las variables aleatorias ņ„ > 0. Nos queda señalar que 


sup |2 Ë + A $) _ 10) 


Meh nu n ea 0 O 


y hacer uso del corolario 23.1. La posibilidad de sustituir /(9) por 1(6*) 

también se deduce del corolario 23.1 (y de la continuidad de X(9)). < 
Ahora podemos enunciar las principales afirmaciones acerca del com- 

portamiento asintótico de la relación de verosimilitud Z(t). Designemos 


Y(u) = In Z(u/Va) = L(X, 9 + u/Yn) — L(X, 0) 


y convengamos en designar por £»(X, 0) (a veces con índices adicionales) 
las diferentes sucesiones de variables aleatorias convergentes casi segura- 
mente a cero respecto a Ps. 
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Teorema 1. Supongamos que se cumplen las condiciones (RR), ön > 0 
es una sucesión arbitraria que converge hacia el cero. Entonces para 
|u/Yn| < ôn 
2 
Y(U) = un — LO + en(X, 0, w), y) 
donde 
len(X, 8, u)| Sen X, 0) +0, En = LUX, 0)/Vn € Po,r0)- 


El punto u° = (Ó" — 0)Vn, en el que Y(u) alcanza el valor máximo, posee 
la propiedad 


u” = a 0 + ex, 0), ®© 
a 
2Y) = 21n Z = 0) = -iay (1 + eal X, 0) € Hi. o 


A la par con (7) es válida la representación 
Yu) = Yu) LR ONI + aX, 0, 10) w 


Jen(X, 0, u)| < Enl X, 0). 
En todas las afirmaciones dadas se puede sustituir 1(8) por 1(0*). 


En este teorema, al igual que en el lema 2, se supone que 0 + uva € ©. 
Esta relación será cumplida automáticamente para n bastante grandes si 
ð es el punto interior de O. 

Observación. 1. Es importante notar que en (7) las variables aleatorias 
ta y en(X, 0) no dependen de n. Por eso la primera afirmación del teorema 
puede ser escrita en la forma 


A 
Ytu) — utn + 5-10) 
sup 

Sd 


Si ón es tal que 


i 
u es 


S io am 
del teorema 23.2 se deduce que en la región adicional |u| > ônV7, 


sup Y(u) > — o. 
bi>sva -= 


Demostración del teorema 1. Del lema 2 |v| < ôr obtenemos 
L'(X, 0 + v) = L'(X, 0) — noO) + E(X, 0, v)), 
len(X, 0, v)| < en(X, 0). 
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Integrando esta igualdad respecto a v dentro de los límites de O a /vn, 
obtendremos 


L(X, 0 +u/Nn) — L(X, 0) = uL'(X, 0)/Vn — ze KOL + En(X, 0, u), 


lEn(X, 0, u)| < En(X, 0). (12) 


Esto es, evidentemente, el desarrollo en serie de Taylor, donde Z” (X, 0)/n 
ha sido sustituida por 7(0), y el término residual admite una estimación 
uniforme. En vista de que 


1 1 

-= L'(X, 0) = — Ps O 

A =- D ren O 

es la suma de las variables independientes igualmente distribuidas, que tie- 

nen por media O y por varianza /(0) (véase (2)), según el teorema central 

del límite £ € Lo, 7). La representación (7) queda demostrada. Para demo- 

strar (8) volvamos al lema (2). Este significa que existe un conjunto A, 

Ps(A) = 1 tal que para Xe €A, n— œ, 

L'(X, 0 + v)— L'(X, 0) 
nu 


sup 


+ 1(0)| >0. (13) 
hl<s, 


Además, en virtud del corolario 23.1 existen la sucesión un — %0, 
un/ VN = yn > 0 (un debe satisfacer (23.9) y el conjunto B, Po(B) = 1 tal 
que para Xw€ B, n> œ, 


w"=(Ó" — 0) = olyn). (14) 


Como la sucesión $Í>0 en (13) es arbitraria, para X.€ANMB, 
PAANB) = 1, en virtud de (14) la relación (13) resultará justa en el punto 
v = v*, Recordando que L'(X, 0 + v*) = L'(X, 6") = 0, obtenemos para 
XoEANB, 

Lx 80 | 0, 
nó — 0) g 


Esto significa que n — F(0)u" = u*en(X, 0), y demuestra (8). 
Haciendo uso de los mismos argumentos, se puede sustituir u = 


=i = Wa = (0° — On = ir A + en(X, 0) en (12). Esto da 


L(X, $) - LIX, 0) = 


10) — 


Tey C +E O) 

y demuestra la primera parte de la relación (9). La convergencia de £2/1(0) 
hacia la distribución x? con un grado de libertad se deduce de los teoremas 
de continuidad, ya que ¿1/41(0) € Po,1- 
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La relación (10) se demuestra de un modo completamente análogo a 
(7) si se hace uso de la segunda afirmación del lema 2 y, basándose en 
ésta, se halla la representación para L(X, 9 + uVn) — L(X, $"). < 


Observación 2. En el lenguaje de las distribuciones, la primera afirmación del teorema 
1 puede ser enunciada de la manera siguiente: 


Yoa tnya ere as 


Anteriormente hemos señalado que la segunda condición (RR) (acerca de la existencia de 
1 (x, 0)) no siempre es esencial para las afirmaciones que han de ser demostradas, El carácter 
no esencial de esta condición para la convergencia (15) se puede mostrar mediante los razona- 
mientos siguientes. La magnitud 


Yu) = r(x. 0+ +) - LUX, 0e > le o+ +) = lo o] 


es la suma de las magnitudes independientes igualmente distribuidas, Por eso, según el teorema 
central del límite para el esquema de series (los sumandos dependen de n y omitimos la verifi- 
cación de las condiciones de Lindeberg) 


YU Ea, ur 
donde 


alu) = lim Mall, 0 + u/Vn) — Hu, 0)) = 


- Jo pmp ia LD, 5 


SS 


(véase el teorema 212 y la observación 21.1). Luego 
Plu) = lim Melia, 0 + 4/45) — Ia, OP = 


á 
-am paean] TADHAD = 


UTA 


73 


=u f (OP FAAdx) = 10). 


Si al calcular a(u) y ofer) se utilizó cl desarrolo I(x, 6 + u/VA) en serie con dos derivadas, 
'obtendríamos el mismo resultado. Sin embargo, nos hemos cerciorado de que no es obligatorio 
hacer esto. 

Concluyendo este párrafo, del teorema 1 obtendremos otro corolario 
útil que necesitaremos en adelante y que se refiere al comportamiento de 
las integrales de la relación de verosimilitud. 


Teorema 2. Supongamos que se cumplen las condiciones (RR), la fun- 
ción w(t) satisface la condición 


[W(D| < ceait, c< œ, œ= 8/16 
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(g > 0 está definido en el $ 21) y la función q(t) es continua en el punto 
t = 0 y está limitada. Supongamos, además, que YI es cualquier medida 
en (R, B), tal que fer alu /*TK(du) < vo. En este caso, si 0 es un punto inte- 
rior de O y X € Po, 


Ja jwet — u)q(0 + u/Vn)Z(u/VAMi(du) = 


bar 
= ero | jur iye FUu-eFIO, 


Ti(du) + ent X, o] . (16) 


En particular, si II es la medida de Lebesgue, Mdu) = du, entonces 


ia e ergo Mw) + E(X, 0), 


donde en(X, 0) 70, n € Lo, -ioy 


La afirmación (16) es muy natural, ya que el factor q(9 + u/V7) es “casi 
constante” y la función Z(u/vn) = e”® se aproxima, con una exactitud 
de hasta el factor constante, según el teorema 1, con una densidad de distri- 
bución normal. 

Demostración, Para simplificar la notación nos limitaremos a examinar 
el caso cuando M es la medida de Lebesgue. El paso al caso general no 
presenta ninguna dificultad. 

Estimemos primeramente la parte de la integral (16) en la región |u| > 7. 
Designémosla por J(r). Como POHIO < 1, entonces, suponiendo, 
para abreviar, Z = Z(u*/ Vn) = e“, t= 0+ ei obtenemos 


zoz( t) -A < (2 am). 

va) "Tar oo «a 

Por eso, en virtud de la desigualdad de Cauchy — Buniakovski, del teorema 
23.1 y del corolario 23.1, 


Mow(u* — u)Z ~ *Z(u/Vn) < 
< [Mw Va" — MZ (u/ 1? < e7, 
Como máx ą(ť) < co, de aquí y del lema 23.1 hallamos 


MoZ 7 Jr) < cents, 
Haciendo uso de la desigualdad de Chébishev, obtenemos las estimaciones 


del mismo orden también para P-(Z”*X(r) > ô). Por eso, si 7 = rn 00, 
de modo que 


> an 


234 CAP. 2. TEORÍA DE ESTIMACIÓN DE PARÁMETROS 
entonces, para y > fa, 
Z-O) > 0. (18) 
Elijamos r, = o(Vn) y examinemos la parte restante de la integral 
VO) = J — JO) cuando y = 2r,. Según el teorema 1, 
zven=z" f q0 + u/Vnywlu" — u)Z(u/Vn)du = 
wsz 
= f (a0) + entu))w(u” — u) x 
þul <ara 
x exp f- qu = WPIONL + en(X, O, jas, 
donde |en(u)| < €n +0, [en(X, 0, u)| < En(X, 0) zo cuando n > œ. Por 


eso, en virtud de (18), es suficiente cerciorarse de la proximidad de las inte- 
grales 


f wa’ — u) exp f- 4 (u — PIO)A + ex(X, 0, "jas, 


IM<2n 


Ty Mo > f wat -uep [Fu PIO} du. 


En virtud de (17) y del corolario 23.1 existe un conjunto A, Pe(A) = 1 tal, 
que |u*| < rn para Xo € A cuando todos n = n(X) son bastante grandes, 
Como 1(0) > g, lu — u’? > u?/2 para |u| > 2ra, ju"| < rn, entonces, en el 
conjunto A (véase el lema 23.1), 


f w(u* — u) exp {- lu- PIO} du < ce-mi 0. 
pan 
Por eso nos queda estimar 


Wu = |f- 3 (u = uPIONL + en(X, 0, w) > 


Iul<2re 


-op (- 3u- erro 


du < f wo) 


=A 
æf ES 


= (1 + E(X, 0, v + w») = æf- 3 210) [av 
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Pero esta integral converge en el conjunto AB hacia el cero, donde 
B = (Xu: en(X, 0) > 0}, Po(B) = 1. Esto resulta de la convergencia a cero 
para cada v de la función subintegral y del hecho de que ésta es mayorada 
por la función sometida a integración. < 


$ 25. Propiedades de las estimaciones de verosimilitud máxima. 
Normalidad asintótica. Optimación asintótica 


Supongamos que X € Po y 6" es la ev.m, Los resultados de los párrafos 
precedentes permiten describir por completo las propiedades asintóticas de 
6* cuando el volumen n de la muestra crece indefinidamente. Además, en 
este párrafo hemos establecido uno de los resultados centrales del capítulo 
presente, que consiste en que la ev.m, al cumplirse las condiciones (RR), 
posee todas las propiedades posibles de optimación asintótica, que hemos 
examinado anteriormente, o sea, la estimación asintóticamente eficiente es, 
a la vez, asintóticamente bayesiana (para toda distribución a priori que 
tiene densidad) y asintóticamente minimax. 

En este párrafo siempre supondremos, sin especificarlo complementa- 
riamente, que se cumplen las condiciones (RR). 

1, Normalidad asintótica de la ev.m. 


Teorema 1. La e.v.m. 6" es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u’ = (6 - 0) ne So, 0) (i) 


tiene lugar junto con los momentos de cualquier orden, o sea, junto con 
(1), para cualquier k > 0, se cumple 


Meu Mal, 1€ 8o, png) B) 


Además, para cualquier función continua w(t) tal, que |w(t)| < e8°/6 (véa- 
se (23.4), 


Mow) + Mw), 1 E o, rry 6) 
Demostración. En el teorema 24.1 hemos establecido que 


En 
10) 


donde en(X, 0) 20, En = L'(X, 0)/Vn € Bo,1s). Esto demuestra (1). Las 


relaciones (2) y (3) se obtienen de (1) y del teorema de continuidad para 
los momentos (véase el $ 1.5), puesto que en virtud del corolario 23.2, 


Mow(u") < Mo exp E9 <c<o. a 


u = (8° — 0)Vn = (l + E(X, 0), (4) 
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Observación 1. De (1) y (2) se deduce que ĝ* pertenece a la clase de 
estimaciones Ks,2, en la que la convergencia de (° — 6)Vn € %, ¿xy tiene 
Jugar junto con la convergencia de Me(0” — 0} > a*(0) de los primeros mo- 
mentos, Como ya hemos señalado en el $ 8, en esta clase, el enfoque asintó- 
tico de la comparación de las estimaciones coincide, de hecho, con el 
enfoque estándar. 

Observación 2. La relación (4) también permite describir exactamente 
las “desviaciones máximas” de (9* — 8)Vn cuando n — co, Pues, se sabe 
(véanse [61] y [84]) que las sumas normalizadas £, de las magnitudes iride- 
pendientes igualmente distribuidas, que tienen por media el cero y por va- 
rianza /(6), satisfacen la ley de logaritmo reiterado, en virtud de la cual 


Bl Ns 
£ RT IAE] = 1) 1 


En vista de que en (4) lim sup En(X, 0) = 0 cs., obtenemos que 


Po (im sup 9 NAO. 1) =1 
me 2 1n in N 
Determinemos ahora, en calidad de corolarios del teorema 2, algunas 
propiedades de la ev.m. relacionadas con la optimación asintótica. 
2, Eficacia asintótica. En el $ 16 hemos introducido el estudio de la 


clase Ko de estimaciones asintóticamente no desplazadas, o sea, de estima- 
ciones 0* cuyo desplazamiento b(0) = Me0* — 0 posee las propiedades 


D(0) = o(1/Vn, b'(0) = o(1). 5) 


En el $ 20 hemos expuesto las ideas según las cuales, en búsqueda de las 
estimaciones asintóticamente eficientes “en total”, es posible limitarse a la 
clase Ko. 

Establezcamos ahora el hecho siguiente, 

Corolario 1. 6° € Ko. 

Demostración. La primera de las relaciones (5) resulta de (2) cuando 
k= 1. Para demostrar la segunda señalemos que (véase el $ 16) 


1 + b'(0) = Maĝ’L' (X, 0) = Mo(Ó" — OIL (X, 0) = 


á 
= MK — 0) V7 Es) = Me -igy C + E(X, 0), 


E(X, 0) 70. 


Si aquí es cierto el teorema de continuidad para los momentos, entonces 
obtenemos la relación requerida 1+5"(6)>1 o, que es lo mismo, 
b'(0) > 0. Para establecer la validez de este teorema en nuestro caso, es 
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suficiente cerciorarse (véase el $ 1.5) de que 
Mol(Ó" — 0) Va ¿a? < c < oo, (6) 


donde c no depende de n. Hagamos uso de la desigualdad de Hólder 
Miên < MIER) PM, p>0, 9>0, ¿+E=1 
para r = 3/2, p = 4, q = 4/3. Entonces obtenemos, para el primer miem- 
bro de (6), la estimación (Mel(Ó* — 6)Vn15)'“*(ME%)*, que, en virtud de 
(2), nos da la desigualdad deseada. < 
El corolario siguiente, debido a su importancia, lo enunciaremos en for- 
ma de teorema. 


Teorema 2. La ey.m. Ô* es una estimación asintóticamente R-eficiente, 
Además, ĝ* es asintóticamente eficiente en Ko. 


Demostración. El hecho de que ĝ* es una estimación asintóticamente 
R-eficiente se desprende directamente de la definición 16.1 y del hecho de 


que 
e — p}? = 1+ ol) 
Maë’ = 0? = 

La eficacia asintótica en Ko se deduce del teorema 16.3. < 

El teorema 2, junto con las observaciones referentes al teorema 16.3, 
significa que, al cumplirse las condiciones (RR), cualquier estimación asin- 
tóticamente eficiente en Ko será una estimación asintóticamente R-cficiente, 

Anotemos que la contracción del conjunto de las estimaciones examina- 
das, hasta Ko, no es la única contracción, ni mucho menos, con la que 
Ú* se vuelve asintóticamente eficiente. 

Indiquemos Otra contracción relacionada en este caso con la propiedad 
de O de ser mediana asintótica de la distribución de las estimaciones asintó- 
ticamente normales, o sea, con la propiedad 


Po(Ó" > 0) = 1/2 0) 


cuando n — œ. 

Designemos por £” la clase de estimaciones 0* para las cuales (7) se 
cumple uniformemente respecto a 6. La clase R° podría llamarse clase de 
estimaciones asintóticamente centrales. 

Teorema 3. La ev.m. ĝ* € R° es precisamente una estimación asintótica- 
mente eficiente en la clase R? 

Aplazaremos la demostración de este teorema hasta el $ 3.3. 

3. Carácter asintóticamente bayesiano de la ev.m. En este apartado, por 
doquier se suponga la existencia de la densidad (1) de la distribución a 
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priori Q respecto a la medida de Lebesgue en O, supondremos también, 
sin especificarlo complementariamente, que la densidad es integrable según 
Riemann, asi que se satisfarán las condiciones del teorema 20.5. 


Teorema 4. La ev.m. Ó* es una estimación asintóticamente R-bayesiana. 
Si Q es una distribución arbitraria a priori que tiene una densidad q(t) 
respecto a la medida de Lebesgue, entonces Ẹ* también es una estimación 
asintóticamente bayesiana que corresponde a la distribución Q. 


Demostración. El carácter asintóticamente R-bayesiano de la ev.m. se 
deduce de las relaciones 


Kira MIVa(Ó" -0 = lím MMo[Vn(ð" -0 = 
= M lím MolVn(Ó" — 0)? = MI" 0) = J. 


Aquí el paso límite bajo el signo de la esperanza matemática es legítimo 
según el teorema de la convergencia mayorada, ya que, en virtud de 23.2, 
el valor de Mol Vn(Ó" — 0)1? está uniformemente limitado por la constante 
que no depende de n ni de 0. 

El carácter asintóticamente bayesiano se deduce del corolario 20.1. < 

De las observaciones referentes al corolario 20.1 y del teorema 4 resulta 
que cualquier estimación asintóticamente bayesiana es asintóticamente R- 
bayesiana. 

La afirmación del teorema 4 puede ser amplificada. Resulta que la 
ex.m. y la estimación bayesiana “casi” coinciden para cualquier densidad a 
priori q. 


Teorema 5. 


Mn(Ó* - 030, Oo- a7 O, 


donde 0% es la estimación bayesiana que corresponde a la distribución Q, 
y la convergencia en probabilidad se entiende respecto a la distribución 
compatible de X y 0 en Z” x 0. 


El teorema 5 se desprende directamente del corolario 20.2. Su afirma- 
ción es equivalente a que para casi todos £ 


Min(Ó" — 09? — 0. 
Es posible la amplificación ulterior de la afirmación enunciada, 


Teorema 6. Sea 8 un punto interior arbitrario O, X € Po. Sea, luego, 
q(t) una densidad arbitraria, continua y positiva dentro de O, de la distri- 
bución a priori. Entonces Yn(Ó" — 6%) > 0. 
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La demostración de deduce del teorema 2 del párrafo precendente. En 
| E- Maorcod 
| AOAO dt 


t= 6 + u/Vn y dividiendo por fa(X) el numerador y denominador en esta 
expresión, obtenemos 


efecto, 076 = Sustituyendo las variables 


1 — u)q(0 + u/Vn)Z(u/Vnjdu 
Vn | q@ + u/ VW) Z(u/Vn)du 


Ahora es necesario hacer uso del teorema 24.2 para w(1) = t y w(1) = 1. 
Como en el primer caso Mw(») = My = 0, entonces obtenemos 


Oa- Ô =exX, 0)/Vn, E(X, 0) zea 


o- 


4, Carácter asintóticamente minimax de la ev.m, 


Teorema 7. La ey.m. es una estimación asintóticamente minimax. 

Este teorema se deduce directamente del corolario 20.3 y de la afirma- 
ción siguiente. 

Lema 1. 


lim sup Mon(ó" — 0) = sup 17 (0), 
nn e 


donde T es cualquier trazado dentro de O. 


El lema 1 se desprende de la convergencia (2) uniforme en 6. La unifor- 
midad será demostrada en el $ 29 (véase el apartado 29.3). 


$ 26*. Cálculo aproximado de las estimaciones 
de verosimilitud máxima 


Hemos visto que en los problemas de estimación de los parámetros revisten 
el máximo interés las estimaciones eficientes y asintóticamente eficientes 
y, en particular, las e.v.m. Surge la cuestión acerca de la determinación prác- 
tica de tales estimaciones. En los problemas reales, la búsqueda del valor 
exacto de la e.v.m. 6* puede presentar grandes dificultades. Esto se refiere, 
sobre todo, a las distribuciones que no tienen estadísticas suficientes relati- 
vamente sencillas. 

Por otro lado, la determinación de cualquier estimación asintóticamente 
normal 6* no provoca, por regla general, dificultades. 

Aqui mostraremos un método de construcción de la estimación 8j, asin- 
tóticamente equivalente a la ev.m. Ó* (y, por consiguiente, a la asintótica- 
mente eficiente), el cual se basa en el método de Newton para cálculos 
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aproximados y en la utilización de la estimación asintóticamente normal 
6”. Pongamos 


UN = t- LUX, DAL(X, 1)7?, 160, 
UD =1+1(% DM)”, 1€0. 


Teorema 1. Supongamos que se cumplen las condiciones (RR), X € Po 
y que 0* es cualquier estimación asintóticamente normal 


(0° — 0) VA E Bo, > 


En este caso la estimación 0] = U(6*) (o bien 0 = UL(0”)) será asintótica- 
mente equivalente a Ó", o sea, 


(03 — Ôn z 0- 
La demostración del teorema se apoyará en el lema siguiente. 
Lema 1. Supongamos que se cumplen las condiciones (RR), X € Po, 


y que ön > 0 es una sucesión arbitraria convergente a cero. En este caso, 
si On es tal que [On — 0| < ôn, 
U(On) — Ô = (On — Ó")entón, 0, 20, 
donde En = máx |en(0n, O, X)| => 0. 
DS P, 

Esa misma afirmación será válida si en vez de U utilizamos la función 
Us 

Con otras palabras, si se hace uso del método de aproximaciones sucesi- 
vas hacia Ó” y se pone 05 = 6, 0i = U(05) (o bien 0] = U1(05)), entonces 
01 — Ó" = 0(95 — 6”), así que la aproximación 9] es mucho mejor que 05. 

Demostración. De las investigaciones de $ 24 y de la continuidad de 
L” se deduce (véase, por ejemplo, el lema 24.1) que 


LUX, n) = (On — ÊL" (X, O), L"(X, 0) = n(10) + Eln, 0, X), 
donde f€ [9n, Ó'], máx £x(0n, 0, X) — O para cualquier sucesión ôn + 
PA ps 
= 0. Luego, 
L” (X, 61) = n(1(8) + ef), 
(O) + EAO) + 8X)7! = 1 + En, 
donde ex, en poseen la misma propiedad que £4. Por consiguiente, 
U(On) — È = 0n — 0° — LUX, BaL" (X, 0n))7* = 
= On — Ó* — (8n — ONI + En) = (On — Ó")en. 
La demostración para la función U, se realiza exactamente igual. < 
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Demostración del teorema 1. Elijamos cualquier ó—0 tal, que 
ón Va > co, y representemos (0 — Ó")Vn en la forma 
(U(O") — Ôn = Vn(0" — ĝen", 8, Xylaria + Tas 


donde ra # 0 únicamente en el conjunto B, = {X: |8° — 0] > ön) y, en vir- 
tud del lema 1, 


En = máx Enlf, 0, X) > 0. 
k-Aca Pe 


Como, además, Po(B,) —> 0, de aquí se deduce que 
101 — ĝ'iVA < Vale” — 0jEn + Vn” — O|En + rn zo < 


El teorema 1 muestra que el método de aproximaciones sucesivas, par- 
tiendo de cualquier estimación asintóticamente normal, nos lleva en 1 paso 
al punto 6”, con una exactitud de hasta los valores de o(1/Vn). 

Si se exige la existencia de las terceras derivadas continuas /™ (x, 0), entonces también 
se puede comenzar de puntos más lejos, que distan de 8, digamos, a la magnitud de o(7 ~ 1). 
En este caso, al igual que en las condiciones del teorema 1, en 1 paso resultaremos en el 
o(1/Vn)-entorno del punto 6”, En efecto, 


o e- o by s E xr o = 


REEE a 


PL” (X, 0°), 


donde 9' y 8” están comprendidos entre 1 y Ó". Por eso 
Un) = È = On = Ò* = LUX, OAL” (X, A 


=F On- PUO) + eah VUO) — 0) 7 0 
si |n — 0] = 0179). <a 


Ejemplo 1. Clasificación de las partículas. Examinemos una fuente que 
emite partículas de dos tipos: con probabilidad p, partículas del tipo A; 
y con probabilidad 1, p partículas del tipo B. La energía de las partículas 
es aleatoria y tiene una densidad de fi(x) para las partículas del tipo A, 
y de fa(x) para las del tipo B. Las funciones fi(x) son conocidas. Han si 
registradas n partículas con energías X1, .... Xn. ¿A qué es igual la probabili- 
dad p? Aquí la función de verosimilitud es igual a 


500 = TI PAD + A- PAD, 
asi que 


nx p- Y A -Aa 
RRS 2 PAGO += DAD ` 9 


16—8030 
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Vemos que la búsqueda de la ev.m. 6* conduce a la ecuación L’ = 0 de 
grado n — 1 respecto a p, la cual se resuelve, para grandes 7, con mucha 
dificultad. Hagamos uso del teorema 1. Para eso necesitamos cualquier esti- 


mación asintóticamente normal p°. Supongamos que [(% — F)?dx < «, 
donde F(x) = Í St) dt, y examinemos el enfoque natural siguiente. Defi- 


namos p* como valor que minimiza 
| noo - F(x) dx, Fx) = pF) + (1 — pF). a) 
Igualando a cero la derivada de (2), obtenemos far = FMF 1 - FeJdx = 0, 
pa [Fi — FF; — Fax 
| (E — Fayax 
Es fácil notar que Mp* = p y que 
[UE — Pivn(Fi - Fajdx 


w -pwn = 
(Er — Fa ?ax 


0) 


De los resultados de los $$ 1.6—1.8 se deduce que p° es una estimación 
asintóticamente normal y que la distribución límite (3) coincide con la 


distribución 
[FCE — Fajax 
[i -Ryds 

Por lo tanto, en virtud del teorema 1 la estimación 

= p°- LX, PL” PY, 
donde Ł' está definida en (1), 

iiie > Ae) -AED 
fixi) + (1 — PA 


será asintóticamente equivalente a la e.v.m. f”. El coeficiente de dispersión 
pi será determinado por la información 


Mid — AOP 
Is f PO +0 = P 
y será menor que el coeficiente de dispersión p°. 


Ejemplo 2. Le proponemos al lector que halle, de ese mismo modo, 
la aproximación para la ev.m. del parámetro æ de la distribución de Cauchy 
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Ko, que tiene una densidad de 


1 
O = irea 


En calidad de estimación asintóticamente normal “previa” se puede tomar 
la mediana muestral ¿* (véase el $ 2 ó los $$ 1.3 y 1.8 Aquí no se puede 
tomar la estimación a* = X, ya que Maa” no existe). La estimación 


ai = PU LX, PLX, Py, 


1 
1+(4-a7 
P g 1- (u -~ a? 
LX, a)=2 9, ne 
será asintóticamente equivalente a la ev.m. &*. Como 


> Kae? 4 e 1 
Ka) = A 


los coeficientes de dispersión ¢* y aj serán iguales respectivamente (véase 
el$2a 


donde LUX, a) = 


1 z YU = z 
HE OA j> 


Ejemplo 3. La sangre de cada persona pertenece a uno de los cuatro 
grupos que designamos por 0 (cero), A, B y AB, El heredamiento de los 
grupos de sangre es controlado por tres genes: A, B y 0, además, el gene 
0 es “deprimido”. por los genes A y B. Por eso, sip, gyr=1-=p- 
- q designan las probabilidades de que aparezcan los genes A, B y 0, las 
probabilidades de aparición de los grupos de sangre corresponderán a las 
siguientes magnitudes: 


Tabla 1 Tabla 2 


i 


P low + zlata + 27] 200 
-2| 2r -24 |24 
=2r| -2p 2r 2p 


16° 
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Sean vı, »2, v3, va las frecuencias de aparición de los grupos de sangre 
respectivos en la población sujeta a investigación, con un total de n perso- 
nas. ¿Cómo hallar la ev.m. par p y q? En nuestro caso las probabilidades 
pi(0), 0 = (p, q) de aparición del ¡-ésimo grupo de sangre y sus derivadas 
parciales respecto a p y q se muestran en la tabla 2. 

Por eso para la función logarítmica de verosimilitud L(X, 0) = 


= Y v; In pi(6) obtenemos 
imi 


AS A, a n 
dp dp A 
LN. de 2ro vs 

dq r pra an a 


Igualando a cero estas derivadas, llegaremos al sistema de dos ecuaciones 
para 9* de cuarto orden. La resolución de tal sistema presenta dificultades 
técnicas. Por eso es más simple hacer uso del teorema 1. Para esto notemos 
que son válidas las igualdades 


mer, mrp=(p+r?, m+ps=(q+rY. 65) 


Las estimaciones eficientes para p; son iguales a p? = »¡/n. Sustituyendo 
en (5) estas estimaciones y resolviendo las ecuaciones obtenidas, tenemos 


=v +p -vpis q =v F — vpi. 


pe pi_es la estimación asintóticamente normal de p (o sea, 
= PANA E Bo, pa-p) en virtud de los teoremas del $ 1.5, p" y q” tam- 

bién serán las estimaciones asintóticamente normales para p y q. 

Para valerse del teorema 1 sólo queda calcular la matriz (L” A ey 
o matriz (nI(8*)"*!, 0° = (p°, q”). 

Citemos el ejemplo de una muestra real X obtenida como resultado del 
examen de n = 353 personas. 

La distribución de la gente por grupos de sangre se da en la tabla 3. 


Tabla 3 Tabla 3A 


De esta tabla se deduce p° = 0,241, g” = 0,167, 7° = 1 — p* — q” = 0,592, 
Con ayuda de la tabla 2, para los elementos de la matriz X(9), cuando 


4 27. PROPIEDADES DE LAS EVM. 245 
0 = 0°; obtenemos 


ape) Y? 1 4r? 4q 29 9970, 
Al dp + ema ger 


apo NY 4p 4 22. 13,761, 
2 öp +6 EE aarm IÓ 


APH0) IPN) 21 a ár ár 


ap ET] w" rs di a cid 
De aquí hallamos |1(6*)] = 130,512. 
300 | 0105 —0,020| 
T'O = 10020 0,076)" 
ðL ðL 
De las fórmulas para dp y y (véase (4)) obtenemos 
L'(0*, X) = (25,443, 34,161), © 
así que para la segunda aproximación de 6? tenemos 
=0" +L1r0", Xo) = (0,246, 0,173). (eA) 


Esto nos da, para completar la tabla 3, las estimaciones expuestas en la 
tabla 3A. 

La aplicación de una iteración más, en forma de (7), ya no modifica 
la estimación 9j (dentro de los límites de la exactitud que utilizamos), ya que 


L'@i, X) = (-0,076, —0,167) 


(compárese con (6)), así que la tercera aproximación para Ó* y todas las 
aproximaciones siguientes coinciderán con 6j. 


$ 27”. Propiedades de las estimaciones de verosimilitud máxima al faltar 
las condiciones de regularidad. Conciliabilidad 


Este párrafo, al igual que el $ 22, no entra en el curso principal de exposi- 
ción y está dedicado al estudio de un caso irregular. Aquí nos limitaremos 
a demostrar la conciliabilidad fuerte de la e.m. en condiciones muy débiles 
respecto a /.(x), las cuales no suponen el cumplimiento de las condiciones 
(RR) o (R). Un estudio más detallado de las propiedades de la ev.m. y 
de la relación de verosimilitud en el caso irregular véase en [48]. 

En todo el párrafo supondremos que se cumplen las condiciones (4), 
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(4) y (40) y designaremos la distancia de Kullback-Leibler gs(Po, Px) por 


e0 n= nf. 


Sabemos que e(0, 1) > 0 para £ > 6 si se cumple la condición (40). 
Evidentemente, la condición (40) es necesaria para la conciliabilidad 
de la emm. o sea, para la convergencia de ĝ' > 0. Si, por ejemplo, 


e(0, to) = O cuando to # 0, entonces los puntos 6 y fọ serán simplemente 
indistinguibles, las distribuciones Pe y Pa coinciderán y cualquiera que 
sea el lugar de convergencia de la ev.m. ĝ*, ésta no podrá ser conciliable 
si X€ Po o si X € Po. 

La siguiente variante de la condición (40) se puede llamar uniforme 
(6 ha sido registrado): 


(Ao) Para cualquier ò = e(5) > 0 


inf 000, ) >e 
ss 
con cierto e >0. 

Es evidente que (Ao) será el corolario de (40), (Ac) y de la continuidad 
de g(0, 1). Por consiguiente, en estas condiciones, la condición (Ao) también 
será necesaria. Al 

Examinemos ahora la siguiente amplificación de la condición (Ao). De- 
signemos 


SO) = sup fes u(x). 
pisa 
(48). Para cualquier 3 > 0 existe A = A(8) > 0 tal, que para todos l, 


= 0l >ô, 
Le) 
f Ea 


«felx)lax) < —e 0) 


con cierto e > 0. 

Esta condición resulta suficiente para la conciliabilidad fuerte de la 
ev.m. La misma es parecida a la condición (Ao) y en este sentido se asemeja 
a la condición necesaria. Una sola condición (4o) no es suficiente para 
la conciliabilidad de la ev.m. (véase la observación 1). 


Teorema 1. Si se cumple la condición (43), entonces la ev.m. Ó* es fuer- 
temente conciliable. 


Demostración. La e.v.m. Ú* es el punto ¢ en el que se alcanza el máximo 
de la función y(t, 6, P5), donde 


ZO 
ve, n P= | n ZE ro. 
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Como 40, Ó*, Ph) > W0, O, Pà) = O, para demostrar el teorema es suficien- 
te convencerse de que con Po-probabilidad igual a 1, 


lím sup sup y(0, t, Ph) < -€ 
heo l-8ab 


con cierto € > 0. (Esto precisamente significará que para ct. Xe € Po, a 
partir de cierto n = n(X) < œ, se cumple |6* — 0! < 5). Supongamos que 
se ha registrado ô y que A satisface la condición (1). Recubramos el conjunto 
ƏN- ô 6-+8] con segmentos Ax= ft: |t- |<) k= 
=l, n N< œ, donde fs €O, fx $19 — 5, 0 + ô]. En este caso, según la 
ley fuerte de los grandes números, 


sup V(O, £, Ph) < máx sup Y, £, P3) < 
l-02b 


fod, f) 
eua 53 eT a a T ÓN 


Observación 1. Como ya hemos señalado, una sola condición (Ao) no 
es suficiente para la conciliabilidad de ĝ*. Para convencerse de esto exami- 
nemos el ejemplo siguiente. Sea © = [0, 1], Po = Us 1+o cuando 
050 < 1/2 y cuando 1. Cuando 1 > 9 > 1/2, la distribución Po tiene 
una densidad de fo(x) = 1/6 cuando 1-6 < x < l. Supongamos ahora 
que X € Po = Uo,ı. En este caso la condición (Ao) se cumple, ya que 

Q(0, 1) = — œ cuando f # O. Al mismo tiempo es fácil ver que /(X) > 1 
cuando 1€ (1 — xa» 1) y que '=1=x0 21 


Las condiciones (48) pueden ser representadas de manera equivalente 
en una forma algo distinta. Designemos /*(x) = lim sup f(x). 


Teorema 2. La condición (A) es equivalente al cumplimiento simultá- 
neo de las dos condiciones siguientes 
(48). Para todos t 0 


RO). 
fu TO fonts) < 0. 


(J). Para todos t y cierto A>0 


Gr ES ricm < e. 


La condición (J), al igual que (46), (4$), significa la integrabilidad de 
las partes positivas de las funciones subintegrales. Tales funciones es natural 
llamarlas integrables superiormente. 
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En virtud de (4.), la condición (J) es, de hecho, equivalente a la limita- 
ción superior de la integral 


Lo 
f 175) 


LSlxduldo < eo, a) 


donde fx) = sup ix). 


Demostración del teorema 2, El hecho de que de (46) resulte (46) y 
(J) es evidente. Ahora supongamos que se cumplen (43) y (J). Si admiti- 
mos que ((4$) no tiene lugar, existirán sucesiones fk >1€0, Ax — 0, 
Ex = 0 tales, que 


[uz in qe SMA > ex. 

Aquí la función eS es po en virtud de la condición (J), 
por la función superiormente integrable, por eso, en virtud del lema de 
Fatou, 


e) Le 
tim sup | n O contas) < | m AO contas) < o. 
Hemos obtenido la contradicción que demuestra el teorema. < 

Ahora expondremos unas condiciones bastante más simples, que de- 
muestran el cumplimiento de (4$) y (J) y, por lo tanto, la conciliabilidad 
fuerte de la ev.m. 

Definición 1. Diremos que f(x) pertenece a la clase Do, si para cada 
1 € 0 existe un conjunto Cr € B, Po(C;) = 1 en el que f(x) es continua 
respecto a t: falx) > f(x) cuando tk > 1, x€ Co. 

Además de las f(x) continuas (respecto a £) en el conjunto C, Pa(C) = 1 
independiente de ¢, a la clase Do también pertenecen, por supuesto, Otras 
funciones, tales, por ejemplo, para las cuales f,(x) en el plano (1, x) tiene 
líneas de discontinuidad aisladas y desprovistas de partes paralelas al eje 
x. Así será, en particular, si f.(x), como función de x, tiene discontinuidades 
aisladas en los puntos x$”, xfP, ..., que dependen continuamente de t. 


Teorema 3. Si f(x) € Do y se cumple (J), entonces también se cumple 
la condición (A$) y, por lo tanto, la ev.m. 6" es fuertemente conciliable, 


Demostración. Si f(x) € Do, entonces f? (x) = f(x) cuando x € Cr y, por 
lo tanto, 


f mE aad > e0, D<0. a 
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Corolario 1. Si f(x) € Do está limitada, y la integral 
f A0) In foOu(dx) 6) 


es finita, la ev.m, es fuertemente conciliable. 

La afirmación del corolario 1 se deduce directamente del teorema 3, 
ya que el carácter limitado de f:(x) y la finitud de la integral (3) conducen 
a (J). 
Corolario 2. Si 


Pla) = | SUR Vu) = JiGOlutax) = 0 (5) 

cuando A —> 0, la ey.m. es fuertemente conciliable. 
Demostración. Hagamos uso del teorema 3. La pertenencia de f(x) € Do 
es evidente, ya que (4) puede cumplirse tan sólo en el caso en que 


Lirikx) > f(x) cuando u — 0 para ct. [a] valores de x. 
Luego, 


[IPC0uldx) < A) + f Auld) = pla) +1, 
y la condición (4) también significa la integrabilidad de f(x). Como 
in e < qa — 1, de aquí obtenemos que la integral en las condi- 
ciones (J) no supera 
Akla) — 1< ela). a 
En vez de (4) podríamos exigir la convergencia a cero de la magnitud 


PA) = | sup (Ms — VFD ula, 


ya que p(A) se puede estimar con ayuda de p,(4) utilizando la desigualdad 
ela) < | mp NIeu) — VAGO! sup IV%+ 100 + 170 lu(dx) < 
[3 A 7 + OY uds] < 
<B (ANe(A) + 4312, 
Corolario 3. Si f(x) es derivable respecto a t para c.t. [y] valores de x, y 
SIC) < c < o, 6) 


entonces la ev.m. 6" es fuertemente conciliable. La condición (5) siempre 
se cumple si la información de Fisher K(f) está limitada. 
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Aquí hemos llegado al mismo resultado que podríamos obtener del teo- 
tema 23.2. El método de demostración de este último (véanse los $$ 21, 
23) muestra que el carácter limitado de /(1) o (5) no son esenciales para 
la afirmación del corolario 3 si la distancia de Hellinger 9x(Po, Po + a) está 
uniformemente separada del cero cuando |A] > ô > 0. 

Demostración. La pertenencia de f(x) € Do es evidente. Para el cumpli- 
miento de la condición (J) es suficiente, como hemos visto en la demostra- 
ción del corolario 2, la integrabilidad de f*(x). Pero 


[rama < ¡[co + $ lea] nta) = 


=1+ j ol Vioola | au <1+24c, 


Queda hacer uso del teorema 3. La última afirmación del corolario 3 se 
deduce de la desigualdad de Cauchy — Buniakovski, ya que, en virtud de 
esta desigualdad, [ix)lu(dx) < PAD. <a 

Corolario 4. Sea 0 el parámetro de desplazamiento de la familia 
Sox) = fix — 0), | Ax) in f(x)dx > — æ. Si la función Aix) está limitada 
(de lo contrario el método de verosimilitud máxima pierde su sentido (véase 
el $ 26)) y tiene un conjunto B de puntos de discontinuidad, cuya medida 
de Lebesgue de clausura ¡(B") es igual a cero, entonces la e.y.m. Ó* es fuerte- 
mente conciliable, 

Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 3. La condición (J) se cumple de modo evidente. La pertenencia de 
SAX) € Do se desprende de la definición de Do en que es necesario poner 
C, = B? — t (este es el desplazamiento del conjunto B* en 1, y B* es la adi- 
ción a la clausura del conjunto B). En vista de que el conjunto B? está 
abierto, x — 1€ B? — 1 conduce a x — fx € B? — t para [tx — f| bastante pe- 
queñas. Esto quiere decir que f(x — tx) > f(x — 1). El corolario queda de- 
mostrado. 

Cabe señalar que en las condiciones del corolario 4 es imútil suponer 
que se ha cumplido la condición (4o), puesto que ésta se cumple automáti- 
camente. Si admitamos que (4$) no tiene lugar, llegaremos a la periodici- 
dad de la función f(x), lo que es imposible. 

En cuanto a las condiciones del corolario 4, señalaremos que la condi- 
ción de “continuidad” de f(x), enunciada en este corolario, es muy débil. 
Pero, por lo visto, tampoco esta condición es esencial. Lo confirma, en 
cierta medida, el ejemplo siguiente. 
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Ejemplo 1. Sea f(x) una función arbitraria que tiene un portador li- 
mitado 
(a, b) = (x: fx) > 0). Entonces 

Po(lÓ" — 0] > 5) < (1 — Fola + 5)" + F(b — ô), (6) 


donde Fo(x) = | fo(»)dy. La desigualdad (6) significa la conciliabilidad 


fuerte de 6*. Esto se deduce de las relaciones que tienen la forma siguiente: 
t -0>5) c fn Psst > 0) CcN(xu>24+0+0), 
AN del 


Po(Ó" - 0 > ô) < [1 — Pola + 0 + 8)]" = [1 — Fola + 5)]". 

Desde cierto punto de vista la condición de finitud de la integral 
[A In f(x) dx en el corolario 4 tampoco es esencial: se puede construir 
fácilmente un ejemplo cuando esta integral se convierte en — 0 y la condi- 
ción (J) queda cumplida. 

De las observaciones del $ 2.18 se desprende que todo lo dicho en el 


corolario 4 y después de éste conserva por completo su validez para el pará- 
metro de escala. 


$ 28. Resultados de los $$ 23—27 para el caso 
del parámetro multidimensional 


Eneste párrafo trasladaremos al caso multidimensional todos los resultados 
principales de los $$ 23—27. Dichos resultados serán expuestos en el mismo 
orden que en los párrafos indicados, con la particularidad de que sólo nos 
detendremos en los momentos donde el carácter multidimensional modifica 
la formulación del resultado o exige la modificación de los razonamientos. 

Así pues, supongamos 9 € O C R*, k > 1. Las enunciaciones de las con- 
diciones (44), (Ac) y (40). al igual que las definiciones de la relación de 
verosimilitud 


a farO 
DS 1 
y la distancia de Hellinger 

ru) = (Poza, Po) = | Voru) — VON do, 


no están relacionadas de ningún modo con la dimensión. 
1, Desigualdades para la relación de verosimilitud (resultados del $ 23). 
Para estudiar el comportamiento de la función Z(u) en el entorno del cero 
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necesitaremos la condición siguiente: la función JJa) es derivable respec- 
to a 0, y la matriz de información de Fisher 


10) = 1001 = [Mo 33, 100, 0-3 16 |, o 


para todos 0€ 0, está limitada y definida positivamente. 
Dada esta condición, del teorema 21.3A resulta que para todos 0, 


0< g < AC) psp NO) < œ. o 


Aquí y en lo sucesivo |u| significa la norma euclidea |u| = Vu? +... + uf 
del vector u = (41, ..., Uy). 

La primera afirmación del teorema 23.1 y su demostración se trasladan 
al caso multidimensional sin camios algunos, ya que, de hecho, las mismas 
no están relacionadas con la dimensión. 


Teorema 1. Si se cumple (2), entonces 
MeZ"? (u) < emrit? 


Para generalizar el teorema 23.2 necesitaremos una condición adicional 
que consiste en que 


y = sup Mall", O)| < © 6) 
con cierto s > k. 


Teorema 2 (análogo del teorema 23.2). Si se cumplen las condiciones 
(2) y (3), entonces, con todos z% n > 1 
Po( sup 2(=%) >e) < cye™? + e“ 3e- O 
>. \ vn 
donde c < œ, £ > 0 sólo dependen de k, g y s. 


Para demostrar csta afirmación, en el caso unidimensional hemos utili- 
zado la posibilidad de estimar sup p(u) por los valores de p(0) y 
Eri 


ñ 
[l»'(u)idu. En el caso multidimensional, tal enfoque choca con dificulta- 
ò 


des, puesto que el valor máximo de p(u) en cierta región DCR“, k > 1, 
no puede ser estimado, hablando en general, por los valores de p(uo), 
to € D, y la integral de p’ (u) (p'(u) = grad p(u)), por una curva registrada 
cualquiera de D. Existen, por lo menos, dos vías para superar esta difi- 
cultad. 

La primera es absolutamente análoga al enfoque unidimensional y con- 
siste en utilizar la estimación que tiene la siguiente forma (en esta fórmula, 
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para simplificar la escritura, nos limitamos al caso bidimensional k = 2): 
1 1 


aO, 12) apen, 0) 
ap po < po + | GD ae + [e 
3 


11 
a, 
x din + ME dun, 
30 

donde u = (u, u), Ko,1 es el cubo unitario Ko, = {u: 0 < 4 <1 j= 
= 1, .... k}. Sin embargo, para utilizar este enfoque debemos suponer que 
existen derivadas de k-ésimo orden de la función /o(x) /o(x)) (véase la defi- 
nición de la función p en el párrafo 23) y saber apreciar los valores medios 
(que necesitamos) de las derivadas de la función p del /ésimo orden, / < k. 
La segunda vía es más conveniente, ya que utiliza la posibilidad de esti- 

mar sup p(u) a través de los valores de p(0) y 

nekaa 


| lp"Gol'du (p'(u) = grad p(u), u = (4, ..., 44) 
dos 


con cierto $ > k (cuando s = k la estimación es imposible). En este caso, 
sin duda, debemos disponer de las estimaciones para Mo|p'(u)/* cuando 
s > k. La obtención de todas las estimaciones aquí necesarias presenta cier- 
tas dificultades y requiere mucho espacio. Por eso la demostración del teo- 
rema 2 para el caso multidimensional se da en el Suplemento VII. 

También debemos señalar que en el libro editado en ruso se utilizó otro 
método de demostración del teorema 2 (véanse las observaciones bibliográ- 
ficas referentes al Suplemento VII). 

Las demostraciones de las afirmaciones acerca de la conciliabilidad de 
la evm. y acerca de las estimaciones para los momentos en el punto 2 del 
$ 23, no están relacionadas con la dimensión. Las propias afirmaciones 
se conservarán en la forma siguiente. 


Teorema 3 (análogo del teorema 23.3). Sí se cumplen las condiciones 
(2) y (4), entonces para cualesquiera z, n > 1 es válida (23.6) sustituyendo 
el número 2/4 por B (véase el teorema 2). 

Las afirmaciones de los corolarios 23.1 y 23.2 conservan por completo 
su validez sustituyendo igualmente g/4 por £. 

2. Propiedades asintóticas de la relación de verosimilitud (resultados 
del $24). 

En el caso multidimensional, por condiciones (RR) entenderemos el 
conjunto de condiciones siguientes: 

1) Condiciones (Ao), (Ae), (R). 
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2) Derivabilidad continua de segundo orden respecto a 8 dentro de O, 
de la función I(x, t) para ct. [u] valores de x. En este caso se supone que 
las derivadas 


lx t) 
ENE 


admiten la mayorante I(x) que no depende de t: ¡Ig(x, £)| < 1x), para la cual 
Mela) = | IOFCI (dx) 


converge uniformemente”) en t€ O. 

3) Además, supondremos, siempre que sea necesario, que se cumple la 
condición (3). 

Al igual que en el caso unidimensional, necesitaremos las dos propieda- 
des siguientes que se deducen de (RR): 

1) Posibilidad de derivar dos veces respecto a 0 bajo el signo integral 
en la igualdad 


lx, ù) = 


[Sic0u(ax) = 1, 
que significa la validez de las relaciones 


2 
E | -aig mao = 0. o 


2) Convergencia uniforme de la integral 1(6): 
sup Mo[('(X1, 9% We 0 > NI=0 (6) 
cuando N => œ. 

Estas propiedades se demuestran en el Suplemento VI. Para simplificar 
la exposición, las referidas propiedades pueden ser intoducidas en las condi- 
ciones (RR). 

En virtud de las igualdades 


1 fox) 
AMECA 
180 1 Bf) Bf) 

F 30,0, A) EN ES 


de las relaciones (5) resulta que 
Molí(x1, 0) = 0, 
Molj(x1, 0) = —Molílxx, lxi, 0) = —1u(0). 


lgx, 0) = 


© Véase la nota en la pág. 226, acerca de la convergencia uniforme en el $ 24. 
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Al igual que en el caso unidimensional, las condiciones (RR) significan 
que tendrán lugar las afirmaciones de los teoremas del $ 23 acerca de las 
estimaciones para 


sup Z(u/Vn) y para Vn(ĝ* — 0). 
>v 


Al cumplirse las condiciones (RR), también serán válidos los siguientes 
análogos de los lemas 24.1 y 24.2. 
Lema 1. Las funciones lọ(x, 0) son continuas “por término medio”: 


Mowá(x1) => 0 
es uniforme respecto a 0 cuando A —0, donde ws(x) = máx Sup, lg x 
LJ nica 
x (x, 0 + u) — l, 0). 


La demostración repite exactamente los razonamientos del lema 24.1. < 
Pongamos 


(L'(X, 9 + wA), w) — (L'(X, 0), w) 


ib, 0) = sup A 


lalo 


+ wl) |. 


Lema 2. (análogo del lema 24.2). Supongamos que se cumplen las con- 
diciones (RR) y que ón > 0 es cualquier sucesión que converge a cero. En- 
tonces, para X € Po 


Ynn 9) 0, Ynn $") z 0. 


En estas relaciones, los valores de 1(0) e I(Ó") pueden sustituirse uno 
por otro. 

Demostración. Al igual que en el caso unidimensional, es suficiente con- 
vencerse de que yn(ón) > 0, donde 


(LX, 0 + wA), w) — (L'(X, 0), u) _ wL” (X, Ou” 
ná n 


Yal) = sup 
ac 
pra 


Pero yn(ôn) <} 22 wkw], donde wx) es el módulo máximo 
de continuidad de las funciones /¿(x, 8). Como 


Flora < klu? = k, 
kj 


entonces 


mënd <E D oteo. o 
i 


256 CAP. 2 TEORÍA DE ESTIMACIÓN DE PARÁMETROS 


La demostración ulterior se base en el lema 1 y repite exactamente los razo- 
namientos del lema 24.2. < 

La generalización del teorema 24.1 para el caso multidimensional aquí 
es el 

Teorema 4. Supongamos que se cumplen las condiciones (RR) y que 
ön > 0, n = 1,2, ..., es cualquier sucesión convergente a cero. En este caso, 
si X € Po, para u tales, que |u/Vn| < ön, 


Yeu) = In Z(u/V7) = (ën, u) = Y UL) + ealX, 0, 10) 8 


donde \en(X, 0, u| <en(X, 0770, x=LegradL(X, 0)=2 
z m va 
€ dono. 
El valor de u* = Vn(Ó" — 0) con el que Y(u) alcanza su valor máximo 
es representable en la forma 


u° = ET ONE + en(X, 0), En(X, 0) 720, (0) 


LUX, 6 


donde E es la matriz unidad. Además, 
ZY(u") = EaI- HOYO + en(X, 0)) € 
SFE E He EE tomo. a 
A la par con (8) es válida la representación 
YG) — Yu) =F (u — O) — UYA + sa(X, 0, 1), 
lex(X, 8, u)| < en(X, 0). 
En todas las afirmaciones mencionadas se puede sustituir 1(9) por 10"). 


Al igual que en el $ 24, en este párrafo, por e,(X, 0) entendemos las 
distintas sucesiones que poseen la propiedad de en(X, 0) + 0 respecto a Po. 


“También debemos señalar que el miembro principal en (8) puede ser 
escrito de la forma siguiente: 


tuu — 3 urOyu = 
= Lu al OO ELO + LONE. 


Esto corresponde a la densidad de una distribución normal multidimensio- 
nal con media £,17*(9) y con matriz de segundos momentos 7” '(0). 
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La demostración del teorema 4 es completamente análoga a la del teore- 
ma 24,1. Del lema 2, cuando A < ôn, obtenemos 
(LS 0 + Ao), u) = (LUX, 0), o) — 
= MAI) + EX, 0, Aa), Jen(X, 8, Aw] < En(X, 0). 
Integrando esta igualdad respecto a A de 0 a ju|/VA y poniendo w = 1/|u|, 
obtenemos 
Hulya 
L(X, 0 + u/Vn) — L(X, 0) = | (LUX, 0 + Au), u)da = 
è 


=L (L'ex, 0), e) - EÈ oOo + eX, 0, u) = 
J 2 


= (bn, 4) — 3 UNOJUTO + en(X, 0, u), jen(X, 0, u) < En(X, 0). 


Aquí, según el teorema central multidimensional de límite (véase el suple- 
mento V), 


x 
1 ; 
n => L (xi, 0) E Doo). 
a=- > (a, 0) € Boo 
La representación (8) queda demostrada. Las demás afirmaciones del teore- 
ma se demuestran absolutamente igual que en el teorema 24.1, teniendo 


en cuenta tan sólo las modificaciones de mostradas relacionadas con la 
multidimensión. La relación 


JEO am 


en (10) se deduce de las propiedades de la distribución normal (véase el 
punto 4 del § 2.2). < 


Con arreglo a la relación (10) también es útil la siguiente 
Observación 1. La matriz 7” (9), junto con /(6), es positivamente definida, y existe una 
matriz 17 12(9) que es la raíz cuadrada de 1” '(9), o sea, una matriz que satiface la relación 
IV) = 0). 

En efecto, si cierta matriz M > O (está positivamente definida), entonces existe una matriz 
ortogonal C para la cual CMC” = diag (4, ... Ae) es una matriz diagonal con elementos 
positivos Ax > O en la diagonal. Si ponemos ahora M'? = C7 diag à}, ..., NV)C, obtene- 
mos, evidentemente, la raíz cuadrada de M. 

Valiéndonos de esto y de la simetría de la matriz 7” X0), podemos (10) escribir en la forma 


FEROE A. 
17—8030 
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Aquí el vector nn = Enf” “XG) es, cvidentemente, la suma normalizada de los vectores 
aleatorios igualmente distribuidos, con una media nula y una matriz de segundos momentos 
Melia RONTE 10) = Mel PONTE! M0) = E, 
puesto que 
Matlin = Mall’ (xi, OTU’, 0) = 160). 
Esto significa que según el teorema central multidimensional del límite, £77 "?(0) € #o,s. 
Teorema 5 (análogo del teorema 24.2). Supongamos que se cumplen 


las condiciones del teorema 24.2 para 06€ R* multidimensional y para 
a = B/2 (B está definido en el teorema 2). En este caso 


Ja f w(u’ — u)q(0 + u/Vn)Z(u/ Vadu) = eYe0g(o) x 


x [i w(u" — u) exp {- qu — OU = w mas) + En(X, ol. 


u) 
Si TI es la medida de Lebesgue, y (du) = du, entonces 
ja QZ 


ergo MW + E(X, 0), (2) 


donde ex(X, 0) = 0, n € Bo, 1-14 (la sucesión en(X, 0) es vectorial si w(i) 
es una función vectorial). 


El teorema $ se demuestra igual que el teorema 24.2, puesto que la de- 
mostración de este último no está relacionada con la dimensión. 

3. Propiedades de la ev.m. (resultados del $ 25). Aquí siempre supon- 
dremos que se cumplen las condiciones (RR). 

El análogo del teorema 25.1 tendrá la forma siguiente. 


Teorema 6. La ey.m. È` es una estimación asintóticamente normal, con 
la particularidad de que la convergencia 


u’ =(Ó* — 0) E $o, 1-6) 
tiene lugar junto con los momentos de cualquier orden. En particular, 
Mon(b" — 0) (Ó" — 0) > 1740). (3) 


Además, para cualquier función continua w(t) tal, que |w(£)] < e®"°™? (el 
número ß está definido en el teorema 2), 


Mow(u") > Mw(n), 1 € Bo, 1-10) 
La relación (13) significa que Ô" € Ko,2. 
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La afirmación del teorema 6 se desprende del teorema 4 (véase (9)) y 
del análogo multidimensional de corolario 23.2 que se deduce del teorema 
3 (compárese con la demostración del teorema 25.1). < 

Definamos la clase Ko como población de las estimaciones 0” para las 
cuales el desplazamiento b(8) = (b,(8), ..., Dx(0)) = M40" — 0 posee las pro- 
piedades 


IDOI = o/a), b0) = 20 o 
cuando 7 —> œ. j 
El análogo de los teoremas 25.2 y 25.3 aquí tiene la misma forma. 
Teorema 7. ĝ* es una estimación asintóticamente R-eficiente. Además, 
ĝ' € Ko también es asintóticamente eficiente en Ko. 


El carácter asintóticamente R-eficiente de Ó", equivalente a (13), tiene 
lugar evidentemente. La pertenencia de Ó* € Ño y la eficacia asintótica en 
Ko se demuestran completamente igual que en el caso unidimensional. 

Pasemos ahora a examinar la propiedad del carácter asintóticamente 
bayesiano. El carácter asintóticamente R-bayesiano de la estimación 0” sig- 
nifica, por definición, que (compárese con el $ 20) 


MIO" = 07(0" = 0) =J/n+o(1/m), J= [IT UNQUO. (14) 
El carácter asintóticamente bayesiano de 0” significa 
lím sup [nv(8*) — nv(09)1 < O, (15) 
donde 0% es la estimación bayesiana que minimiza v(0*) = M(0” — 0) x 
x V(0" — 0)” para cualquier matriz V definida no negativamente. 


Teorema 8 (análogo del teorema 25.4). Ó* es una estimación asintótica- 
mente Rebayesiana. Si la distribución a priori Q tiene densidad respecto 
a la medida de Lebesgue en O, entonces Ô* es una estimación asintótica- 
mente bayesiana. 


La demostración es completamente análoga a la del teorema 25.4. La 
relación (14) para 0* = ĝ* se deduce del hecho de que 
lim Mn(Ó* — 0)(Ó" — 0) = 


= M lim Man(ĝ* — 0)7(Ó* — 6) = MI" (0) = J. 


El paso límite bajo el signo de la esperanza matemática (o sea, de la 
integral) aquí es legítimo, ya que la magnitud Men(ó* — 0)7(Ó" — 0) está 
limitada por una constante que no depende ni de n ni de 9 (compárese 
con el corolario 23.2). 


17 
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Para demostrar (15) notemos que, conforme al $ 20, la desigualdad inte- 
gral de Rao—Cramer, en el caso cuando Q tiene densidad, reviste el aspecto 


Mn(0" — 90" - 9) >J + o(1). 
Esto significa que 


nulb) > Y vodu + o), 
donde Pyl = J, lvl = V. Por otro lado, en virtud de (14) cuando 0” = ĝ', 
avíÓ") = Y vydy + 0(1). 


Es evidente que de estas relaciones se deduce (15) cuando 9* = 6". < 
Los análogos de los teoremas 25.5 y 25.6 también tendrán lugar. Por 
ejemplo, del teorema 5 se desprende 


Teorema 9 (análogo del teorema 25.6). Supongamos que X € Po y que 
0 es un punto interior arbitrario de O. Si q(t) es la densidad arbitraria 
continua y positiva (dentro de O) de la distribución a priori, entonces 


vVn(Ó" — 0) 20 


donde 04 es la estimación bayesiana correspondiente a q(t). 

El carácter asintóticamente minimax de ĝ* puede ser establecido igual- 
mente que en el teorema 25.7, con ayuda del análogo multidimensional 
del criterio asintóticamente minimax en el corolario 20.3: 


lím sup Min(Ó* — 0)U(Ó* — 0)7 = sup 2 16 (0)wy 
te 


nose 
HG ON = 170), 


y con ayuda del carácter uniforme de convergencia en (13), la cual se dedu- 
cirá de los resultados del párrafo siguiente. 

En el caso del parámetro multidimensional ĝ*, cuando su dimensión 
k es grande, las propiedades de la optimalidad asintótica de 8 deben utilizar- 
se con cuidado. Es necesario observar que la relación n/k sea grande (el 
número de observaciones para un parámetro escalar). De lo contrario las 
deducciones pueden resultar erróneas. 

Ejemplo 1. En el laboratorio se comprueba la concentración de 7 solu- 
ciones. Cada una de las 7 concentraciones desconocidas 41, ..., pn Se verifica 
dos veces. Se supone que la varianza o? de todas n observaciones 
(X1, Y1) e (Xn, Yn) es igual, y que las propias observaciones son indepen- 
dientes y están distribuidas normalmente, así que 


1 1 
LIO = rr eo E Ee Èo lou = a? + 0r 0], 
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donde 
0= (pr, -as Mn 07). 


Las ev.m. para p; aquí son iguales a 


1 
aj = 3 Qu ya). 


Es evidente que estas estimaciones no están desplazadas y no son concilia- 
bles. La ev.m. para o” es igual a 


(y =D 0u - y0? y 0%/2 cuando n > o. 


Esta estimación proporciona con gran fiabilidad un valor falso para el pará- 
metro o? (dos veces menor). 

4. Cálculo aproximado de la ev.m. El contenido de $ 26 conservará por 
completo su validez en el caso multidimensional si por [L“(X, £)]”* enten- 
demos la matriz inversa a L“(X, 1). 

5. Propiedades de la ev.m. al faltar las condiciones de regularidad (re- 
sultados de $ 27). Las condiciones de conciliabilidad de 0, enunciadas en 
los teoremas 27.1—27,3, de hecho no están relacionadas con la dimensión, 
La demostración de estos teoremas se conserva por completo con una exac- 
titud de hasta las modificaciones evidentes debidas al hecho de que el con- 
junto O ahora ha de ser recubierto (en virtud de la condición (4+)) no 
por un número finito de intervalos, sino por un número finito de esferas. 
También se puede decir lo mismo en cuanto a los corolarios 27.1—27.4, 


$ 29. Uniformidad respecto a 0, de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones 
de verosimilitud máxima 


En las investigaciones posteriores, principalmente en los $$ 13—15 de capí- 
tulo siguiente, serán útiles las afirmaciones de los $$ 24, 25 y 28 en su aspec- 
to uniforme en cuanto a 0. La mayoría de estas afirmaciones (digamos, 
las que tratan de la Po-distribución límite de (4* — 8)Vn) han sido obtenidas 
suponiendo que $ es un punto registrado de ©. Ahora nos interesará qué 
sucederá si 9 no ha sido registrado y cambia junto con n. Está claro que 
en este caso junto con n también cambiarán las distribuciones Ps, así que 
cada muestra X, tendrá su “propia” distribución para n = 1, 2, ... 

Llegamos, pues, al esquema de series (véase [11]), para el cual las enun- 
ciaciones de los principales teoremas del límite serán algo diferentes. En 
particular, la ley fuerte de los grandes números pierde, hablando en general, 
su sentido, ya que las variables aleatorias sujetas a investigación dejan de 
ser dadas (para diferentes n) en un espacio probabilístico. 
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1. Ley uniforme de los grandes números y teorema central del límite. 
Sea X € Po, n,o = M(X, 0). 
Definición 1. Diremos que la sucesión yn,o converge uniformemente en 
probabilidad hacia la constante a(9), si para cualquier e > 0, cuando 


no, 


sup Poln, — a(0)| > £) > 0. 
so 


Esta relación se escribirá en la forma “n,o ES a(0) uniformemente res- 
pecto a 0”. 


Definición 2. Diremos que qn,» converge en distribución hacia la va- 
riable aleatoria ye uniformemente respecto a 0 si para cualquier función 
continua y limitada p, cuando 7 > c, 


sup IMsotmn,0) — Míne)! +0. 0) 


Esta relación es escribirá en la forma “n,o => ne uniformemente respecto 
a 0”. Ese mismo sentido le conferiremos a la relación “nn,o € Go uniforme- 
mente respecto a 0”, donde Ge significa la distribución no. 

Le proponemos al lector que él mismo compruebe el hecho de que si 
las funciones de distribución ye son continuas uniformemente respecto a 
0, la relación (l) es equivalente a 


sup IPalnn,o < x) — Po < x)! > 0. 


Nótese que la convergencia uniforme 7n,o 7? 200) y la convergencia uni- 


forme en distribución ya, > a(9) hacia la variable aleatoria degenerada 
a(0) son equivalentes. 

Nótese también que para la convergencia uniforme conservarán su vali- 
dez los principales teoremas de continuidad. Por ejemplo, si H es una fun- 
ción continua, de la convergencia uniforme no > ne se deduce la 
convergencia uniforme 


H(m,0) = Hino). a) 
Estas afirmaciones se deducen directamente de las definiciones. 
En el Suplemento V hemos demostrado los siguientes teoremas “unifor- 
mes” del límite. 


Supongamos que X€P» y que a(x, 9) es una función vectorial medible 
dada: 2°x O > R'. Examinemos las sumas 


Sal) = Z alti, 0) 
de los vectores aleatorios independientes que dependen del parámetro 6 € © 
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tanto directamente a través de la función a(x, 6), como también a través 
de la distribución de x € Po. 
Recordemos que la integral y(x, 6)Po(dx) se llama convergente unifor- 
memente respecto a 9 en la región O, si 
sup f lyx, 0) | Poldx) > 0 
KO ii hN 
cuando N> co. 


Teorema 1 (ley uniforme de los grandes números). Si la integral a(0) = 
= ja(x, 0) Po(dx) converge uniformemente respecto a 0 € O, entonces, cuan- 
do n> %, 

SaO) 

wa 
uniformemente respecto a 0. 


Corolario 1. Si la sucesión (0n) € O, entonces en las condiciones del 


teorema 1, 
.. ( 


Este hecho será designado 
Salna) _ k 
n aln) P 0. 


200 — aoa | >e) -0. 


Al examinar el teorema central del límite, para las sumas sn(0) será más 
cómodo suponer a(0) = 0. (Esto no es la limitación de la generalidad, ya 
que podemos examinar nuevos sumandos a’ (xi, 6) = a(xı, 0) — a(0)). Pon- 
gamos a*(9) = Mola” (xı, Oa(x;, 6)) y designemos por aj(x;, 0), j = 1, 
2, ..., Z las coordenadas de los vectores a(xı, 6). 

Teorema 2 (teorema central uniforme del límite). Supongamos que las 
integrales (ax, 0)Po(dx), j = 1, ..., | convergen uniformemente en O. 
Entonces 


mo © sO = q € Poo 


uniformemente respecto a 0. 


2. Variantes uniformes de los teoremas de las propiedades asintóticas 
de la relación de verosimilitud y de las estimaciones de verosimilitud máxi- 
ma, Nótese previamente que, al cumplirse las condiciones (RR), los resulta- 
dos del $ 23 serán uniformes respecto a $ por su propia forma, ya que los 
segundos miembros de las desigualdades en los teoremas 23.1 — 23.3 (y en 
los teoremas 28.1 — 28.3) no dependen de 8. 
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Pasemos a los resultados de los $524 y 28 acerca del comportamiento 
asintótico de Z(u/Vn). 

Las afirmaciones de los lemas 24.1, 28.1, 24.2 y 28.2 pueden hacerse 
uniformes respecto a 8. 

Lema 1. Cuando A=>0 


sup Mewá (xı) = 0, 6) 


donde wa(xı) es el módulo máximo de continuidad de las funciones I¡(x, 0). 
Demostración. La validez de (3) para un 6 registrado ha sido demostrada 
en el lema 28.1. Si en este caso admitimos la ausencia de uniformidad res- 
pecto a 0, llegaremos al hecho de que existen £ > 0 y sucesiones ĝa > 0 € O, 
An > 0 tales, que 
Mo,cé, (xı) > 8. (4) 
Suponiendo, para abreviar, wå, (xı) = w”, obtenemos 


Mew” = Me, (w"; fo (1) < 2/0(x1)) + Mo, (w” 5 fo, (%1) > 
> foli), Ix) < N) + Mo, (w” i fo. (x1) > 249(%1), Ix) > N). 


Aquí el primer sumando no excede 2Msw” y converge a cero en virtud 
del lema 28.1. El segundo sumando no supera 2NJ„, donde 


h= f ad) = 1- f Sauda) = 0 
Lu 012210 MOA 


según el teorema de la convergencia mayorada. Por fin, el último sumando 
no supera Mo, (21(x1); /(x1) > N) y, en virtud de (RR), puede hacerse, es- 
cogiendo N, tan pequeño como se quiera. Hemos obtenido la contradicción 
con (4), lo cual demuestra el lema. 

Lema 2. La afirmación del lema 28.2 se conservará si la convergencia 
casi segura en ella se sustituye por la convergencia yn(6n, 0) z 0, Yalôn 


$) y, 0 uniforme respecto a 8. 


Demostración. Seguiremos la demostración del lema 28.2. Señalemos 
previamente que, en virtud del teorema 1 y de la convergencia uniforme 
de la integral en (RR), 


L*(X, D/n > — 10) 
uniformemente respecto a 0 (la convergencia de las matrices se entiende 
por elementos). Además, de los teoremas 23.3 y 28.3 se deduce que Ó* -> 0 


uniformemente respecto a 9. De aquí se desprende que en la relación yn(bn, 
O) 7; 0 (véase el lema 28.2) podemos sustituir 1(9) por L*(9)/n y por 10°). 
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En virtud de la desigualdad (28.7), el problema de estimación de yn(6n, 
6) se reduce a la estimación de 


2400 =} Y ox 0, 
a 


donde w¿(x, 0) es el módulo máximo de continuidad de las funciones /¿(x, 
6). De la desigualdad de Chébishev obtenemos 


sup Poé > 0) <E sup Mo. Qu, 0). 


Pero en virtud del lema 1, sup Mowg (x1, 6) > 0 cuando A > 0. Esto de- 
muestra que 
2£00 5,0, Yan 0 0 (5) 
uniformemente respecto a 6. 
Luego, de las desigualdades (24.6) resulta que el problema de estimación 


de ynlón, 0”) se reduce a la estimación de wé, ¡4-9 (X). Como Ó* — 
-0 7, 0 uniformemente respecto a 0, de (5) obtenemos que 


aero 0 mn Ó") 7: 0 


uniformemente respecto a 0. < 

Teorema 3 (análogo del teorema 28.4). A! cumplirse las condiciones 
(RR), las afirmaciones del teorema 28.4 se conservarán en las modifica- 
ciones siguientes: en(X, 0) e O uniformemente respecto a 0, tn € Po.10), 


2Y(u") € Hr uniformemente respecto a 0. 


La demostración del teorema se basa por completo en el lema 2, así 
como la demostración del teorema 28.4 se basa en el lema 28.2. Por eso 
la demostración requerida se obtiene mediante la introducción de modifica- 
ciones evidentes en la demostración del teorema 28.4, relacionadas con la 
sustitución (que resulta del lema 28.2) de la convergencia ex(X, 9: 2 0 por 


la convergencia uniforme en(X, 0) >» 0. Además, hay que añadir que 


¿IR 


del 


uniformemente respecto a 6, en virtud del teorema 2 y de la convergencia 
uniforme (28.6) de la integral 1(6) (ésta es la matriz de segundos momentos 
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para l’ (xı, 8)), la cual se desprende de las condiciones (RR) (véase el Suple- 
mento VI). De aquí y de las observaciones referentes a (2) obtenemos la 
convergencia uniforme 
2Y(u") € He. < 
Las mismas modificaciones que en el teorema 3 (en comparación con 
el teorema 28.4) pueden ser introducidas en los teoremas 28.5 y 28.6. 
Citemos aquí los dos siguientes corolarios del teorema 3. 


Teorema 4. 
u* =vA(Ó" — 0) € Born (6 


uniformemente respecto a 6. En este caso, para cualquier función w(x) con- 
tinua casi por doquier respecto a la medida de Lebesgue y tal que 
Iw91 < CeSixi2/2 (el valor de B >O ha sido definido en el teorema 
28.2), se cumple 


sup IMow(u”) — Mw1o)! = 0, y) 


donde yo @ Bo,¡-1(0)> 
Demostración. La primera afirmación se deduce de las relaciones 
u’ = EIT ONE + en(X, 0), 
lenX, Olz O, En € Boro, 
uniformes respecto a 0 y contenidas en el teorema 3. 
Para demostrar la segunda afirmación admitamos que (7) no es cierta, 
Entonces habrá ô> 0 y sucesiones 0, > ĝ € O tales, que 
1Mo, w(u") — Mw(no)1 > ô (0) 


para todos n. 

Pero 0,1-19 > Bo,1-1p Y POr consiguiente, en virtud de (6), la Pas 
distribución u*(w(u")) converge débilmente a la distribución no(w(no). 
Además, según el corolario 23.2 (véase también el $ 28), 


sup Mew? (u°) < sup Mo exp (3(u")'8/4) <c < o. 
De aquí y de los teoremas de continuidad para los momentos se deduce que 


Me. w(u") > Mw(ne). 
En vista de que Mw(7».) — Mw(ne), la relación obtenida contradice 
(8). <a 
Sea An C 2”. 


$29. UNIFORMIDAD RESPECTO A Ô 267 


Teorema 5. Si Po(A») > 0, entonces para cualquier N registrado, 


sup Pos usyan) > 0. 
laieN 
Esta propiedad de las sucesiones de las distribuciones Po + u/yz cuando 
n= œ se llama contigualidad (véase [81]). La utilizaremos en el capítulo 3. 
Demostración. Tenemos 
Posu/yn(An) = Mo (Z(u/Vn); An] < 
<S Mo(Z(u/Va); AnD (Y (u) < 03) + Porui(Y (1) > 0) S 
< e Po(An) + Pos wym(Y(U) > 0). 


Como Pe(4») > 0, para demostrar el teorema debemos examinar sólo 
sup, Po+u/yi(Y(u) > c). Según el teorema 3, 
< 


Yu) = (tn, u) — 3 uI@UTA + eX, 04 UV) @ 8 (9) 


1 
gao 


uniformemente respecto a u, donde o? =ul(0)u” < NAr(0) cuando 
lul < N, y Ar(0) es el número máximo propio de la matriz 7(0). Como 
16 0) < Poell, 09), entonces, en virtud de la uniformidad en 


o 


lím sup, Posuval(Y(u) > ©) < sp, Soll, 00) = Poma o (c, 00). 
Eligiendo c, este valor puede hacerse tan pequeño como se quiera, < 

3. Algunos corolarios. 

1) En el $25 hemos enunciado el teorema 25.3 en el que se afirma, 
en particular, que Ó" € 9, donde K'* es la clase de estimaciones asintótica- 
mente centrales, la cual es definida por la relación (se examina el caso unidi- 
mensional) 

Po(Ó* > 0) > 1/2 


uniformemente respecto a 0. Del teorema 4 se deduce que la parte men- 
cionada del teorema 25.3 es cierta, así que 


Po(Ó" > 8) = Po(Vn(Ó* — 0)17 2(0) > 0) > Do. (©, 00) = 1/2 
uniformemente respecto a 0. < 
2) En el $25 hemos enunciado el teorema 25.7 acerca del carácter asin- 


tóticamente minimax de $”. Para demostrar este teorema sólo queda es- 
tablecer la validez del lema 25.1 de que 


lím sup Men(ó* — 8) = sup 178), (10) 
me oT as 
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donde T es cualquier segmento de ©. Pero esta afirmación es el corolario 
directo de la convergencia de Men(Ó* — 0)? — 17 *(6), uniforme respecto a 
00, la cual hace válido el paso límite bajo el signo sup: 


lím sup Man(ĝ* — 9)? = sup lím Men(6* — 0}? =supI"*(0). < 
ne Wr WE na «e 

La afirmación, que es análoga a (10) y asegura el carácter asintótica- 
mente minimax de ĝ*, tendrá lugar, evidentemente, también en el caso mul- 
tidimensional: 


km sup Men(Ó" — 0)V(6" — 0)7 = sup D vy 17 (0), 
nam aE wE 
Lrg ON = 170) 
para cualquier matriz V. 


$ 30". Acerca de los problemas estadísticos relacionados con las muestras 
de volumen aleatorio. Estimación sucesiva 


El hecho de que las muestras de volumen aleatorio surgen en la práctica 
y son naturales, es confirmado por el ejemplo 18.3. Otro ejemplo está rela- 
cionado con la llamada estimación sucesiva (o progresiva), que se emplea 
en los casos cuando podemos realizar observaciones sucesivas, es decir, una 
tras otra, y cuando estamos interesados en minimizar el número de tales 
observaciones, digamos, debido a su alto precio. En este caso, además de 
la regla de estimación (o sea, de construcción de la estimación 6”) debemos 
establecer la regla de interrupción del experimento. Estas reglas pueden ser 
diferentes: por ejemplo, podemos sumar los precios dados c(xy) de las obser- 
vaciones x; hasta agotarse cierta cantidad admisible £. En este caso el mo- 
mento » de interrupción (número de la última observación o volumen de 
la muestra) será determinado como 


> = min [e È w >). 


esto es “el tiempo del primer del nivel 1” en errar con saltos c(x) (véase 
[1], capítulo 8). Se pueden sumar las “informaciones” Iœ, 0) = 
= (1' (xı, 6)” e interrumpir las observaciones cuando sea alcanzado otra 
vez cierto nivel dado, etc. 

En estos ejemplos » es un momento markoviano, o sea, {» > n) € 
€ 0(X1, . . . Xn), que constituye una de las suposiciones principales al exami- 
nar los problemas de estimación sucesiva. Al hacer tal suposición y al 
cumplirse varias condiciones adicionales menos esenciales, la desigualdad 
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de Rao — Cramer será conservada en la forma siguiente: 
. 1 
DO > 7M5’ 


donde 0* =0*(x1, ..., x») es la estimación no desplazada de 0, 1(0), es 
decir, la información de Fisher. La demostración de esta desigualdad es 
análoga a las demostraciones del $16, para calcular la información de 
Fisher, contenida en la muestra (X1, ..., Xx»), sólo se necesita utilizar la 
identidad de Wald (véase [11)). 

Si » depende de cierto parámetro £, como ocurrió en el ejemplo 18.3, 
así que y — œ casi siempre cuando f — œ, entonces es posible construir 
las estimaciones asintóticamente óptimas con un error estándar asintótica- 
mente equivalente a (1(9)M»)”!. 


$ 31. Estimación por intervalo 


1, Definiciones. Hasta ahora hemos estudiado las propiedades y los méto- 
dos de búsqueda de las mejores estimaciones puntuales de un parámetro 
desconocido que determina la distribución Po de la familia P= (Po), 
correspondiente a la muestra X. Las estimaciones puntuales se utilizan en 
los casos cuando debemos llamar cierto número 0” destinado al uso en 
vez de 0 desconocido. 

No obstante, también tiene gran aplicación otro enfoque de la cuestión. 

Consideraremos 6 como parámetro escalar (el caso multidimensional 
será examinado en el punto 6). Como sabemos, no es posible determinar 
exactamente 9 basándose en una muestra dada. Pero podríamos tratar de 
indicar tal intervalo (6”, 0*), el cual, con una probabilidad dada bastante 
alta, sea capaz de recubrir el valor desconocido de 9. En este caso es indu- 
dable que cuanto más estrecho sea este intervalo tanto mejor será. En 
muchos problemas se exige de antemano, digamos, aumentando el volumen 
de la muestra, construir tal intervalo (97, 9*) cuya anchura no supere las 
dimensiones dadas. 

Definición 1. Supongamos que para £ > 0 dado existen variables aleato- 
rias 9% = 6*(e, X) tales que 


Po(07 (e, X)<0, 0* (e, X)>0)>1-€. (1) 


Entonces el intervalo (9”, 9*) se llama intervalo confidencial para 0 de 
nivel 1 — e. 
Es evidente que (1) se puede escribir en la forma 


Po(0” <0 <0*)>1-e. 


El suceso que aquí está bajo el signo de probabilidad, consiste en que 
el intervalo aleatorio (97 , 9*) ha cubierto el valor desconocido de 9. Leer 
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este suceso como “8 toma un valor perteneciente al intervalo (97, 6*)” 
sería un poco menos exacto, ya que 6, hablando en general, no es aleatorio. 

Los valores de 9* se denominan fronteras de los intervalos confiden- 
ciales, y el número 1 — £, coeficiente o nivel de confianza. 

Por lo tanto, la diferencia entre la estimación por intervalo y la estima- 
ción puntual consiste en lo siguiente. 

1) El intervalo confidencial como estimación es “menos exacto”, ya que 
se señala un conjunto entero de posibles valores de 9. 

2) Por otro lado, la afirmación “9€(9”, 0*) con probabilidad 
> 1 — æ” es real, mientras que el suceso 0 = 6” tiene, por lo general, una 
probabilidad igual a cero. 

En calidad de £ suele escogerse un número pequeño. Basándose en éste, 
se construyen 0* (e, X) y luego, basándose en la muestra, se declara que 
0.€(07 (e, X), 0* (e, X)). Procediendo de este modo nos equivocaremos en 
una larga serie de experimentos, aproximadamente en el 100 7o de todos 
los casos. Por ejemplo, si € = 0,001, el error puede ocurrir una vez en 1000 
casos, aproximadamente. 

Declarando justa la relación 9 € (97, 6*), utilizamos el hecho de que 
si cierto suceso tiene la probabilidad e y este e es pequeño, entonces prácti- 
camente es imposible que tal suceso se produzca durante un solo experi- 
mento. Un pasajero, tomando el avión cree intuitivamente en ello con 
seguridad. Le basta saber que la probabilidad de que el vuelo se termine 
felizmente es bastante alta (a pesar de que conoce que esta probabilidad 
no es igual a 1). Precisamente tal enfoque es la base para construir muchos 
procedimientos estadísticos. 

Destaquemos primeramente un caso, cuando la construcción de los in- 
tervalos confidenciales es sobre todo natural y puede ser realizada sin gran- 
des dificultades. Es el llamado caso bayesiano que ya hemos examinado 
en los $$ 10, 11 y 20. 

2. Construcción de intervalos confidenciales en el caso bayesiano. Aquí 
supondremos que el parámetro 0 se escoge aleatoriamente, con una densi- 
dad a priori conocida de distribución q(/) respecto a cierta medida A en 
©. Luego se realiza la muestra X € Po y necesitamos construir el intervalo 
confidencial para el valor elegido de 8. 

Si se cumple la condición (A,), en este caso, como sabemos del $ 10, 
existe una distribución a posteriori de 6 (convencional respecto a X) que 
tiene una densidad de 


TO 
xy = FCO 
a00 = TE OODE 


respecto a la medida A. Esto quiere decir que en calidad de 0* (e, X) es 
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suficiente tomar dos números cualesquiera 9*, para los cuales 


G qlu/X)iMdu) = 1 — e 
a 


(o bien > l — e si Í q(u/X)xdu) cambia al variar £ discretamente). En 


otros términos, en calidad de 6” y 0* conviene tomar las cuantilas de 
distribución a posteriori que tienen los Órdenes 1 — €z y £,, respectivamen- 
te, para todos ê: y ez, tales que €1 + € = €. 

Aquí, a distinción del caso no bayesiano, en la relación 9” <0 < 0* 
son aleatorios todos los tres elementos : las fronteras del intervalo de 9 * 
y la propia magnitud 8. 

No es difícil ver que en el procedimiento descrito existe cierta arbitra- 
riedad relacionada con la elección de los números €, y €2. A veces esta 
arbitrariedad es eliminada por el propio planteamiento del problema, por 
ejemplo, cuando nos es importante establecer únicamente la frontera confi- 
dencial superior o inferior. En este caso conviene poner igual a 0 uno de 
los números £1, € y hacer infinita la frontera respectiva. Sin embargo, si 
las fronteras desempeñan un papel simétrico, es natural escoger £; de modo 
que el intervalo (9”, 0*) se haga más corto en la medida de lo posible, 
Para las distribuciones q(1/X) próximas a las distribuciones simétricas, esto 
se alcanza cuando €, = €1 = €/2. 

3. Construcción de intervalos confidenciales en el caso general. Interva- 
los confidenciales asintóticos. Los principales métodos de construcción de 
intervalos confidenciales se basan en la utilización de estimaciones pun- 
tuales. Examinemos al principio el enfoque asintótico de la construcción 
de intervalos confidenciales. 

Definición 2. Supongamos que X = [X«]n € Po y que para £ > 0 es- 
tablecido existen variables aleatorias 0* (e, X) tales que 


lím infPo(9” (e, X) < 0 < 0* (e, W >1-e. (2) 


En este caso el intervalo (9”, 0 * ) se llama intervalo asintótico confidencial 
de nivel 1 — e. 

En esta definición es necesario subrayar que en realidad se trata de la 
sucesión de intervalos (9, 0,1) determinados para cada n. Formalmente, el 
concepto de intervalo asintótico confidencial, con arreglo a una muestra 
de volumen registrado, es insustancial. No obstante, la relación (2) se utiliza 
con grandes n al igual que se utiliza el teorema central del límite para el 
cálculo aproximado de las distribuciones de las sumas de un número finito 
de variables aleatorias. 
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En los apartados precedentes hemos visto que la mayoría de las estima- 
ciones puntuales examinadas eran asintóticamente normales. Más abajo se 
expone la construcción de los intervalos asintóticos confidenciales basados 
en tales estimaciones. 

Sea 0” la estimación asintóticamente normal: 


(0* — ONE Boa, (0) 


y 0(0) es una función continua. Como 8*— 6, la última condición significa 
que o(9*) T o(0). De aquí y de (3), según el segundo teorema de conti- 


nuidad, resulta que 


(4) 


Designemos por às la cuantila de distribución normal de orden 1 — ô, 
O sea, un número tal que ®o,ı((—%, m4) = 1 — ô, o bien P(IEl < N) = 
= 1 — 28 si £€ ®o,ı. Al disponer de e > O registrado, para s2 introduz- 
camos temporalmente una designación más breve, suponiendo 


di =$. 
Entonces de (4) se deduce 


mp (|C 


Pero esta relación se puede escribir en la forma 


<8) =1-e 


lim Po(0* — Bo(0°)/ VN < 0 < 0° + Bo(0°)/VN = 1 — e. 


Ahora bien, ios números 
0% = 0° + Bo(0")/Vn 6) 


satisfacen la definición 2 y, por consiguiente, son las fronteras del intervalo 
asintótico confidencial de nivel 1 — e. 

Si ahora, para la muestra X dada y registrada, de volumen n, cons- 
truimos el intervalo (5), su nivel real se distinguirá, hablando en general, 
de e, pero se distinguirá poco si n es bastante grande. Por eso los intervalos 
asintóticos confidenciales deben tratarse con cierto cuidado, aclarando pre- 
viamente a partir de qué n la probabilidad del suceso (0€(9”, 9*)] es 
con bastante exactitud aproximada por el valor límite. Por regla general, 
cuanto menor sea € tanto mayor será la exigencia en cuanto al volumen 
de la muestra n. El volumen necesario también depende de la distribución 
Po y de la estadística 0”. 
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Ejemplo 1. Supongamos que X € Fa.., y que utilizamos la estimación 


eficiente a* = 222. En los ejemplos 4.1 y 16.1 hemos establecido que 


2 


Maa’ =a, Dia => 


ñ 
así que aquí oè(a) = a”. La relación (5) nos da 


a* 2220 8Nm. (6) 


¿A qué realmente es igual el nivel de este intervalo? 
Necesitamos hallar Pa,1, o sea, la probabilidad de la desigualdad 
n 


Zat 0 -eN < a < La + arm) 


o bien, que es lo mismo, la probabilidad de la desigualdad 


1- ea E 
donde naX € T1,n. Como a es el parámetro de escala, entonces ax € 
GT i/2.n= Han. Así pues, el nivel exacto del intervalo (6) es igual a 

2 DA +8/4m 
m,n)dx, Y) 
Un DA =- 0/4m 
donde y1/2,n está definido en el $2”. 

Cuando £ = 0,05 y n = 30, tenemos $ = 1,96, (n — 11 — 8/Vn)/n = 
= 0,6201, (n — IA +-8/Vn)/n = 1,3126, 

Ahora bien, el intervalo asintótico confidencial de nivel 1 — e = 0,95 
con arreglo al caso n = 30, es el intervalo (0,620/X, 1,313/X). 

Si hacemos uso de las tablas de distribución x? con 60 grados de liber- 
tad, en virtud de (7) descubriremos que el nivel exacto de significación de 
este intervalo confidencial constituye (con una exactitud de hasta tres sig- 
nos) 0,937 = 1 — 0,063. En este caso los “aportes” de los extremos izquier- 
do y derecho del referido intervalo no son equivalentes ni mucho menos 
(compárese con la aproximación normal) y constituyen 0,010 y 0,053, res» 
pectivamente. 

Para n = 50 el intervalo asintótico confidencial de nivel, igual a 0,95, 
tendrá la forma (0,708/x, 1,252/x). El nivel real de su significación será 


La observación de que Pia, s = Has es útil, ya que permite, para el cálculo de Pa, 2 
(si 2) es entero), utilizar las tablas de la distribución x° dadas en el suplemento, así como 
en muchos otros manuales de estadística matemática. 


18—8030 
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igual a 0,942 = 1 — 0,058 (los aportes equivalen a 0,014 y 0,044, respectiva- 
mente). Está claro que si continuamos aumentando n, dichos aportes se 
aproximarán con 0,025. 

Volvamos a examinar el intervalo confidencial (5) que hemos construido 
con ayuda de la estimación asintóticamente normal 0*. A distinción del 
caso bayesiano, aquí hay una arbitrariedad relacionada con la elección de 
la estimación 6”. La forma de las fronteras del intervalo muestra que se 
pueden obtener las dimensiones dadas del intervalo, tanto aumentando el 
volumen de la muestra n (lo que por diferentes causas no siempre es reali- 
zable) como disminuyendo posiblemente 0(9”). Aquí llegamos a la conclu- 
sión importante de que siendo iguales los volúmenes de la muestra, la 
estimación de menor dispersión o(0) dará el mejor intervalo confidencial. 
Ahora bien, los mejores intervalos asintóticos confidenciales se obtendrán 
al utilizar las estimaciones asintóticamente eficientes. 

Siempre que se cumplan las condiciones (RR) y que 6” pertenezca a 
la clase Ko N Ko,2 (véanse los 5$ 8 y 16) el mejor intervalo asintótico confi- 
dencial tendrá las siguientes fronteras: 


9% = 0° + BINNI, 


donde 0* es cualquier estimación asintóticamente eficiente, por ejemplo, 
la evm. 

Algunos otros métodos de construcción de intervalos asintóticos confi- 
denciales se examinarán en el punto 6. 

4. Construcción del intervalo confidencial exacto mediante una estadis- 
tica dada. Supongamos que en calidad de estadística hemos escogido la 
estimación 6”, Entonces, mediante esta estimación, sería natural buscar el 
intervalo confidencial simétrico de nivel 1 — e en la forma 0” + A(e, X) 
o en la forma 0*(1 + A(e, X)), así como se hizo en el ejemplo antes exami- 
nado, No obstante, si tratamos de realizar este plan, resultará que la cosa 
no es tan simple, ya que en el caso general las fronteras +A(£,, X) depende- 
rán del parámetro desconocido 9: pues A(e, X) debe ser elegido de la con- 
dición 

Po(0* — Ale, X) < 0 < 60° + Ale, X)>1-E, 


donde 8 aquí entra, de manera esencial y muy compleja, antes que nada 
a través de la propia distribución Po. 

Por eso, para construir los intervalos confidenciales mediante una esti- 
mación dada 9”, se necesita cierta estructura especial. 

En la construcción expuesta más abajo, a la par con la estimación 0* 
puede participar cualquier estadística S. Designemos con el símbolo Ge 
la distribución de S y pongamos Ga(x) = Go((— %, x)). 
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Definición 3. Diremos que la estadística S, en cuanto a su distribución, 
depende monótonamente de 0 si para todos x, 0 < 02 


Go, ((x, 00) < Go,((x, 00)) 
o bien, que es lo mismo, 
Ga.) > Galo). (8) 


Todas las estimaciones razonables 0* suelen poseer esta propiedad. 
Si la dependencia monótona Ge(x) de 9 es continua, entonces la 
ecuación 


Gx) = y 


es siempre resoluble respecto a 6 para cada y €(0, 1). Designemos por 
b(x, y) la solución de esta ecuación. 
Teorema 1. Si €, + €2 = e, la estadística S, en cuanto a su distribución, 


depende monótonamente de 0, y la función Ge(x) es continua respecto a 
0 y x, entonces los valores 


07 = b(S, 1- e), 0* = b(S, e) 
JSormarán el intervalo confidencial de nivel 1 — €. 

La demostración del teorema es casi evidente. Utilicemos el hecho de 
que si la función de distribución F(x) es continua y ¿€ Æ entonces 
F(9) E Uo, (PE) < x) = PẸ < F~ (9) = F(F7'(9) = x). En virtud 
de esta observación, Ge(S) € Uo,ı y, por lo tanto, 

Pelei < GaS) < 1 - &) = 1- e, 
Po(D(S, 1 — €) <0<D(S, &1)) =1- E. a 


Con frecuencia es cómodo realizar en dos etapas la “inversión” de la 
función Go(5), utilizada en el teorema. Primeramente Go(x) se invierte res- 
pecto a x, o sea, se determinan las cuantilas Gg *(y) como soluciones de 
las ecuaciones Go(x) = y, y luego se resuelven, respecto a 6, las ecuaciones 

Gre) =S, G7'U1-e)=S. 
Tales soluciones siempre existirán, ya que, según los datos del teorema, 
G5 My) depende monótona y continuamente de 6. 

En la fig. 3 se muestran las curvas y = Gg (61) e y = G7*(1 — 2) que 
definen para cada 6 el campo de valores y, cuya probabilidad de entrar 
en el mismo, para cierta estimación S = 6”, es igual a 1 — e. Como ya he- 


mos señalado, el procedimiento de construcción del intervalo confidencial 
es la inversión de las funciones 


»=G7 e) »=G5'1-e) 
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o sea, la determinación de los puntos de intersección de las curvas de nivel 
y = S que les corresponden. Los puntos de intersección obtenidos dan pre- 
cisamente el intervalo requerido (07, 8*). 

Si la condición de continuidad de Go(x) no se cumple, lo cual tendrá 
lugar para variables aleatorias discretas S, entonces, en general, el procedi- 
miento expuesto y la afirmación del teorema 1 conservarán su validez, con 
la única diferencia de que, al definir respectivamente las cuantilas G7 (y), 


r=0 de 


Fig. 3. 


es necesario sátisfacer la desigualdad Go((G7 (21), G7 '(1 — e2))) >1-e 

en vez de la cual antes hemos tenido una igualdad exacta. En consonancia 

con esto, la afirmación del teorema 1 en este caso tendrá la forma 
Po(0” <0<0*)>1-e, 

donde 6* son las soluciones de las ecuaciones Gō'(e:) =S, 

(1 — €) = S. Además, llamaremos intervalo confidencial de nivel 

1 — e el intervalo (97, 0+). 

Si construimos el intervalo confidencial (97, 6*) con ayuda de la esti- 
mación ĝ*, de la fig. 3 se deduce que este intervalo será tanto más. estrecho 
cuanto más estrecho sea el intervalo (Gs '(e1), G7 '(1 — e2)) o bien, que 
es lo mismo, cuanto más concentrada sea la distribución de 0” cerca de 
6. Ahora bien, aquí llegamos al mismo problema que en la teoría de las 
estimaciones puntuales, o sea, a la determinación de las estimaciones 0° 
que aprecian 0 de la forma más exacta. 

El problema relacionado con la construcción de los mejores intervalos 
confidenciales se examina más detalladamente en el $ 3,8. 

En vista de que la forma de las funciones de distribución Ge(x) suele 
ser bastante compleja incluso para las familias simples de distribuciones 
citadas en el $2, el referido procedimiento de inversión de Gs(x) en la prác- 
tica resulta muy difícil. Por eso el cálculo de las fronteras confidenciales 
está considerablemente tubulado. En el ejemplo siguiente, donde ilustramos 
la construcción de los intervalos confidenciales según el esquema descrito 
en el teorema 1, para simplificar la exposición utilizaremos la aproximación 
normal. 
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Ejemplo 2. Sea X € Bp. En calidad de estimación para p tomemos la 
estimación eficiente p” = »/n, donde » es el número de casos favorables 
en n pruebas (el número » puede designar, por ejemplo, la cantidad de 
artículos desechados que han sido descubiertos durante la verificación de 
control de n muestras. Es necesario construir el intervalo confidencial para 
la porción de artículos defectuosos p). 

Tenemos (q =1— p) 


Gp(x) = Po(p* < x) = Pp G ER? 


Conforme al teorema 1 debemos resolver la ecuación 


Grp") = y (9) 
para los valores y iguales a e/2 y 1 — 8/2. Cuando n son grandes, en virtud 
del teorema central del límite, Gp(x) = P((x — p)n/V/npg), donde $4) = 
= do. ((—<o, y)), y, por consiguiente, la ecuación (9) puede ser sustituida 
por su aproximación 

S(p" — p)n/Vnpa) = y Y= 8/2, 1-e/2, 


o bien, que es lo mismo, I(p° — p)n/Vngql = n = B, 


° — př = BPQ - py/n. 

Esta es la ecuación para las fronteras p* del intervalo confidencial, que 
no es otra cosa sino la ecuación de la elipse extendida para grandes 7 a 
lo largo de la bisectriz p* — p = 0. Despejando p en esta ecuación, ob- 
tenemos 

p* pal pY/. 
No es difícil comprobar que obtendríamos ese mismo resultado si utilizára- 
mos el enfoque asintótico expuesto en el punto 3. 

Si n no es grande, conviene calcular G(x) por la fórmula exacta 


Gp(x) = E pta - py, 


aplicando luego el procedimiento del teorema 1. 

Supongamos, por ejemplo, que de n = 10 artículos y = 2 resultaron de- 
fectuosos. Entonces, cuando e = 0,05, las fronteras exactas del intervalo 
confidencial son iguales a p” = 0,037, p* = 0,507. La gran anchura del 
intervalo se explica por la poca información de que disponemos. 

No obstante, si n = 100, » = 20, entonces, para € = 0,05, 


p` =0137, p* = 0,277. 
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Hemos tomado estas cifras de tablas especiales que dan la solución numéri- 
ca del problema sobre los intervalos confidenciales para el número p, siendo 
diferentes n y y (véase [8)). 

5. Otros métodos de construcción de intervalos confidenciales. 

En este apartado examinaremos ciertas generalizaciones del procedi- 
miento antes propuesto, relacionado con la construcción de intervalos con- 
fidenciales. 


Teorema 2, Admitamos que en O x Z” existe una función G(0, x), tal, 
que la distribución H(B) = Po(G(0, X) € B) no depende de 0. Supongamos 
también, que G(0, x), para cada x, es continua y monotóna respecto a 0. 

Admitamos luego, que y”, y* satisfacen la relación H((”, y*)) = 
= 1 — e. Entonces las estadísticas 


97 =G 77,2%), 0* = G7 'O*, X), si GO, -) t, 
E 
97 =G 70", X), 0% =G 707, X, si G0, ) L, 


son las fronteras del intervalo confidencial de nivel 1 — e. Aquí G”*Q, 
X) es la solución de la ecuación G(0, X) = y. 


Demostración. En virtud de la monotonía de G(0, x) (supongamos, para 
precisar, que G(0, x) crece respecto a 0), el suceso {G7 O7, X) <0 < 
< G”*(*, X)) coincide con el suceso A = {y7 < G(0, X)<y*). 

Por definición de H(-) e y* tenemos 


Po(0” <0<0*)=PAG" 07, X)<0<G" 0", X) = 
= Po(4) = A(O”, y") =1- e. < 


Observación 1. En el teorema 1, en calidad de G(0, X) hemos examinado 
la función Go(S). Además se ha cumplido H = Uo,1. 

Observación 2. Se puede examinar el análogo asintótico del teorema 
2, admitiendo la existencia de la sucesión de funciones (G,(9, x)} continuas 
y monótonas respecto a 0 y tales que, cuando n — œ, 


Po(Gr(0, X) € B) > H(B), 

donde H(-) no depende de 8. Entonces obtendremos el método de construc- 
ción de intervalos asintóticos confidenciales, que generaliza el método de 
construcción de intervalos asintóticos confidenciales mediante estimaciones 
asintóticamente normales, expuesto en el punto 3. 


Ahora proponemos un método más (a la par con el teorema 1) de elec- 
ción de la función G(6, x) que figura en el teorema 2, 


Teorema 3. Sea Fs(x) = Po(x; < x), con la particularidad de que 
1) Fo(x) es continua respecto a x para todos 0€ 0, 
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2) Fo(x) es continua y monótona respecto a 9 para cualquier x registra- 
do. Entonces la función 


GO, x)=-— Y In(Po(x)) 
A 
satisface las condiciones del teorema 2. 
Si los números y* son tales que 


» 
E f x#-'ede=1- 


ro) (10) 
fa 

entonces 0* = G” '(»*, X) formarán las fronteras del intervalo confiden- 

cial de nivel 1-2. 


Demostración. Verifiquemos el cumplimiento de las condiciones del teo- 
rema 2. Como, según la condición 1), Fe(x) distribuida uniformemente en 
[0, 1), entonces —In Fo(xp) € F1, y G(8, X) € Pin. Con otras palabras, 
Po(G(0, X) € B) = T¡.n(B) y H = Pi,» no depende de 6. La monotonía y 
la continuidad de G(0, x) se deducen, para cada x, de la condición 2). Ade- 
más, en virtud de (10) 


HO”, y) =O, y) =1-e. <a 


También se pueden señalar algunas otras construcciones de los interva- 
los confidenciales. En este caso, al igual que en la teoría de estimación 
puntual, en seguida surge la pregunta acerca de qué intervalo confidencial 
debe considerarse el mejor si se han obtenido varios intervalos. En el $ 3.8 
trataremos de los enfoques que existen en este caso. Sin embargo, de la 
exposición precedente está claro que, de hecho, el problema de búsqueda 
del intervalo confidencial óptimo es en mucho muy parecido al problema 
de estimación puntual óptima. También está claro que si construimos los 
intervalos confidenciales utilizando las estimaciones puntuales, conviene 
dar preferencia a los intervalos confidenciales construidos con ayuda de 
las mejores estimaciones. 

La semejanza de los problemas de optimación de las estimaciones pun- 
tual y por intervalo puede ser ilustrada citando el ejemplo de la afirmación 
siguiente. 

Teorema 4. Examinemos el intervalo asintótico confidencial (07, 0*) 
de nivel 1 — e y supongamos que la variable aleatoria 9° = (6* +07 )/2 
es la estimación asintóticamente normal y asintóticamente central (véase 
el punto 2 del $25), y la magnitud A =(9* — 87 )/2_es tal, que ô= 
= lím inf VnA no depende de X. En este caso 5 > B/V1(0). 
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Esto quiere decir que la anchura del intervalo confidencial (97, 6*) 
no puede ser mucho menor que 28/Vn1(0), o sea, menor que la anchura 
del intervalo de nivel 1 — e construido con ayuda de la ev.m. ĝ' 

Demostración. Admitamos lo contrario. Entonces habrá una subsuce- 
sión de los números {7 } para los cuales AVn* > c8/V1(6), e < 1. Como 
0* =0* A, entonces 


1-e= lím Po(07 <0<0*)= lím Pa(10* — 01 < A) = 
= lím Pa(10* — 01Vn” < c8/VTO)) < lim Po(lÓ" — 0V7 < 


<cB/NTO). QM 


La última desigualdad se deduce del hecho de que la ev.m. ĝ* es asintótica- 
mente eficiente en la clase R° de estimaciones asintóticamente centrales 
(véase el teorema 25.4). En vista de que en (11) el segundo miembro es 
menor que 1 — £, hemos obtenido la contradicción que demuestra el teore- 
ma. < 

6. Caso multidimensional. El concepto de intervalo confidencial se ge- 
neraliza en el caso del parámetro multidimensional 0 € R* en el concepto 
de región confidencial o de conjunto confidencial. 

Definición 4. El subconjunto aleatorio” 9* = O*(e, X) del espacio pa- 
ramétrico O se llama conjunto confidencial de nivel 1 — e si 


Pa(9°30) > 1-e. (12) 


Con otras palabras, el conjunto confidencial de nivel 1 — £ recubre el 
valor real desconocido de ð con una probabilidad no menor de 1 — e. 

Definición 5. Si X = [X.]n € Po, y si el conjunto aleatorio ©" satisface 
la relación 


lím inf Pa(O° > 0) > 1 — &, 


entonces O” se llama conjunto asintótico confidencial de nivel 1 — e. 

Los conjuntos confidenciales “exactos”, incluso óptimos, se estudian en 
el $8 del capítulo siguiente. 

En lo que se refiere a los conjuntos asintóticos confidenciales, el princi- 
pio de su construcción es el mismo de antes. Teniendo en cuenta el teorema 
4, examinaremos a la vez los conjuntos confidenciales construidos con ayu- 
da de la ev.m. 0”. Como sabemos, al cumplirse las condiciones (RR), 
XEP», 


(Ó" — OVAL (8) E Lo.g. 
” En este contexto diremos que el conjunto 8*(e, X) es aleatorio si para cada f el conjunto 


[X: £ € 8*(e, X)) es medible y, por lo tanto, también diremos que la probabilidad (12) está 
definida (compárese con el $ 3.8.). 
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De aquí se deduce que 
nê — DIONS" — 0)” € Ha, 
ni — ONENE —07 E Hr. 
Con otras palabras, si h. significa la cuantila de orden 1 — & de la distri- 
bución Xê con k grados de libertad, entonces 
Jim Polo — SENO — ÔT < h.) 


£. 03) 

Hemos construido el conjunto asintótico confidencial O * de nivel 1 — £ 
que es un elipsoide cuyo centro se encuentra en el punto Ê* y cuyos ejes 
se definen por la matriz n1(0")/h.. En este caso no es obligatorio calcular 
la matriz /(9) para la construcción de 6”. Como sabemos, al cumplirse 
las condiciones (RR), X € Po, 


LIX, 0) - LIX, 0%) = — 5 (0 SIENO — 6%. 


Por eso el elipsoide O * definido en (13) puede representarse como la pobla- 
ción de los valores de 6 para los cuales 
L(X, 0) - L(X, Ô) > —h/2. 

En el $28 hemos determinado que el límite de la Po-probabilidad de esta 
desigualdad (véase la observación 28.2) es igual -=8, 

De aquí resulta, en particular, que en el caso unidimensional, las fronte- 
rasó * del intervalo asintótico confidencial de nivel 1 — e pueden ser defini- 
das como las soluciones de la ecuación 


L(X, 0) - L(X, 6") = —h,/2 = —B2, 


$32. Distribuciones muestrales exactas e intervalos 
confidenciales exactos para poblaciones normales 


Entre todas las distribuciones citadas en el $ 2, la distribución normal tiene 
la mayor aplicación. Por eso en este párrafo examinaremos especialmente 
la construcción de los intervalos confidenciales para los parámetros a y 
o de la distribución B., ¿». 
1. Distribuciones exactas de las estadísticas X, S. Supongamos que X € 
€ do,1 y que C = llegll (i, j= 1, 2, ..., n) es una matriz ortogonal. 
Examinemos la distribución del vector n-dimensional Y = XC, Y = 


= Y. 


> Yah y= D o 
F 


Lema 1. Si C es una matriz ortogonal, entonces Y € %o,,, O sea, las 
coordenadas yı, ..., Yn SOn variables aleatorias independientes, yı € Po,1, 
ELL e. 
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Demostración. Sea í un vector (fi, ..., tn). La normalidad de la distri- 
bución de X significa que su función característica es igual a 


"S 
Me ae ? 


donde m = ml es una matriz de segundos momentos, que en nuestro 
i$ 
caso es igual a la matriz unidad E para la cual EP = >) f, 
dul 
480 
Me =se "0. 


La función característica de la distribución compatible y1, ..., Ya (0 
de la distribución del vector Y) tiene la forma 


KO = Me = Mee, 
Sustituyendo las variables £ = uC y notando que CC” = E, obtenemos 
-jEn -43 
f09=MerY=Me e | se P 
Esto quiere decir que Y tiene la misma función característica y, por lo tanto, 
la misma distribución que X. < 

Ahora demostremos una afirmación llamada lema de Fisher, que es 

muy importante para la exposición ulterior. 
Lema 2. Supongamos, como antes, que X € ®o,ı, que C es una matriz 


ortogonal y que Y = (Yı, ..., yn) = XC. Entonces, la forma cuadrática 
TO) = D t- YA. .-yY 


no depende de las variables aleatorias yı, ..., yr Y tiene una distribución 
x con n — r grados de libertad: 

La demostración es casi evidente, ya que después de aplicar la transfor- 
mación ortogonal de C, obtenemos 


A 
Taje E vii ee e A 


Solamente queda utilizar el lema 1. < 
Pasemos ahora al estudio de la distribución compatible de las estadísti- 


h 
ayi Y a-a 
a 


n 


Teorema 1. Sea X € y. Entonces 

1) @ - a) Vn/a € Lor, 

2) (n — 19S3/0 € Hn-1, 

3) las variables aleatorias X y Si son independientes. 
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Demostración. La afirmación 1 es evidente. Además está claro que sin 
limitar la generalidad podemos considerar œ = 0, ø = 1. Tenemos 


(1 DSi = $ Xx, 
fc 


Notemos que 


VERS M+ ao + eaa 


y que el vector columna n-dimensional Un (su norma vale 1) siempre 


puede ser completado hasta cualquier matriz ortogonal C. Entonces 
Jı = Vnx es la primera coordenada Y = XC y, en virtud del lema 2, obtene- 
mos que 


a 
a- DS= 2x- ye Maa 


y que las variables aleatorias (1 — 1)53 e y, = VAX son independientes. < 
Corolario 1. Sea X G %.,,,:. Entonces la variable aleatoria t = G — 
- ajVn/So E Tn-1, O sea, tiene una distribución de Student con n — 1 
grados de libertad. 
Esto se deduce del teorema 1 y de la representación 


EN, a 


1 (n-)) : 
7 C 


La afirmación del teorema 1 acerca de la independencia de Si y X puede 
ser amplificada. Resulta que X no depende del vector X — X (o sea, que 
no depende de los sumandos de S3). Esto se deduce de la normalidad de 
1 y de X — X, así como de la no correlatividad de las variables aleatorias 
X y x — X, la cual se desprende de la igualdad (a = 0) 


j 
MG -D3 = A [e - DM} -M (È x) ] -0 
ren 
2. Construcción de intervalos confidenciales exactos para los pará- 


metros de distribución normal. Examinemos primeramente dos situaciones 
elementales, 
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a) Supongamos que X € $, .* y que o? se conoce. Es preciso cons- 
truir el intervalo confidencial de nivel 1 — £ para el parámetro æ. En este 
caso la forma del intervalo confidencial se deduce, evidentemente, de las 
igualdades 
POUR — aj Va/ol < 8) = P(-oß/Vn < X — a < oß/Vn = 1 = £, 
donde, como antes, $ = 2, ®o,1((— ©, A) = 1 — ô, asi que 
a*(e, X) =X + 08/Vn. 


Proponemos que el lector, en forma de ejercicio, haga uso de un proce- 
dimiento un poco más formal, expuesto en el teorema 31.2, con la utiliza- 
ción de la función G(æ, X) = Œ — a)Vn/0 € ®o,1. 

b) Ahora supongamos que se conoce œ. Es necesario construir el inter- 
valo confidencial de nivel 1 — e para o”. 


Pongamos 
si = DF Cu- ay. 


ta 
Es evidente que en este caso nSi/o? € Ha y, por consiguiente, 


POr < nS}? < yi) = Hal y) = PSY < 0? < astro). 


Ahora bien, las fronteras del intervalo confidencial de nivel 1 — e tendrán 
la forma 


(07) * = Siye 
para todos y." tales que Ha(Om Ya) = 18. 
Si se utiliza el procedimiento del teorema 31.2, conviene poner 
Glo, X) = nSi/0? € Ma. 
Pasemos ahora al caso cuando ambos parámetros a y g? se desconocen. 
c) Con el fin de construir el intervalo confidencial para o”, hagamos 
uso de la estadística Gi(o, X) = (n — 1953/07”. En virtud del teorema 1, 


Gi(o, X) € H,- 1. Luego procedemos al igual que en el caso b). Las fronte- 
ras del intervalo confidencial para o? tendrán la forma 


(®t = (1 DS YE 1 


Es fácil ver que las estadísticas G(o, X) y Gi(o, X) en los casos b) y 
c) tienen la misma distribución y, por lo tanto, dan los mismos intervalos 
confidenciales para g? siempre que en el caso b) tengamos una observación 
más que en el caso c). Hablando figuradamente, en el caso c) “perdemos” 
una observación debido a la existencia de una indeterminación adicional, 
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o sea, del parámetro desconocido œ. Esta observación se destina, en cierto 
sentido, a estimar el parámetro “obstaculizante”%a. 

d) Construyamos ahora el intervalo confidencial para œ. Hagamos uso 
de la estadística Gi(a, X) = (X — a)Vn/So. En virtud del corolario del te- 
orema 1, 


Gila, X) € Ta-1. 


En vista de que la función Gı (æ, X) satisface las condiciones del teore- 
ma 31.2, los razonamientos ulteriores repiten exactamente los correspon- 
dientes razonamientos en los casos a), b) y c). Las fronteras del intervalo 
confidencial tienen la forma (para simplificar la exposición tomamos un 
intervalo simétrico) 


* =X 4 780/Vn. 
donde 7, se determina de la igualdad 
Pla < 7) = Trial 70 7) =1 e. 


Nótese que si el valor de So es próximo al de o, entonces el intervalo 
confidencial obtenido será más ancho que el dado en a), ya que 7. > $ 
(véase la observación en el $ 2). Esto se explica, como antes, por la existen- 
cia del parámetro “obstaculizante” œ el cual se conoce en a). 

Los números y*, para los cuales en las investigaciones citadas se ha 
cumplido la relación 


PGO, MED", y*)Y=1-e, 


en la práctica suelen determinarse con ayuda de las tablas de la estadística 
matemática. 

En el $ 3.8 mostraremos que los intervalos confidenciales construidos 
en este párrafo son, desde cierto punto de vista, los mejores. 


” Es interesante notar que, a pesar de las ideas intuitivas iniciales, por una observación 
1 € Ëa, à es posible construir el intervalo confidencial para o”, siendo a desconocido. Los 
siguientes razonamientos que muestran esto fueron comunicados a nosotros por 
L. N. Bolshakov. 

Escojamos u de modo que $(1/u) — $(—1/u) = £, donde $(x) = %o, ı((- œ, x)). En- 
tonces 


Pe > ulxal) = P(~0/u < xı < 0/u) = P (E4-2< 
z 


OS 


CAPÍTULO 3 


Teoría de verificación de las hipótesis 


En los $$ 1—3, 11 se expone la teoría de verificación de un número finito (en particular, dos) 
de hipótesis simples. 

Los $$ 4—12 están dedicados a los métodos de construcción de criterios óptimos para 
verificar dos hipótesis compuestas. En particular, se examinan los criterios bayesianos y mini- 
max (los $$ 4 y 9) y se utilizan los principios de suficiencia, de carácter no desplazable y 
de invariación para construir los criterios uniformemente más 


potentes, 
En los $$ 13—17 se estudian los métodos de construcción de criterios asintóticamente 
óptimos. 


$1. Verificación de un número finito de hipótesis simples 


1. Planteamiento del problema. Concepto de criterio estadístico. Critério 
más potente. En este capítulo se tratará de la verificación de cualesquiera 
suposiciones (hipótesis) respecto a la distribución P de la cual se ha extraído 
la muestra X. Aquí, al igual que en la teoría de las estimaciones, no existiría 
tal problema, si la distribución P, de la cual se extrae la muestra X, fuera 
conocida. 

La decisión de que es cierta o no la hipótesis dada H debe basarse exclu- 
sivamente en el conocimiento de la muestra X € P extraída y, posiblemente, 
también en el conocimiento de la información a priori respecto a P si dispo- 
nemos de ella. 

Ahora bien, para determinar el procedimiento de toma de decisión ba- 
sándonos en la muestra X, debemos establecer, de una u otra forma, la 
aplicación del espacio muestral 2” en el conjunto de hipótesis que se exa- 
minan. Tal aplicación suele llamarse criterio estadístico. Las definiciones 
exactas para diferentes situaciones concretas se darán más adelante. 

Comencemos por el problema más simple: verificación de un número 
finito de hipótesis simples. 
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Definición 1. Llamaremos hipótesis simple cualquier suposición que de- 
fina unívocamente la distribución de la muestra X. 

Supongamos que se dan z distribuciones P1, ..., P,, y supongamos 
que sabemos que X es la muestra de una de estas distribuciones. El proble- 
ma consiste en determinar a qué Py precisamente, j = 1, 2, ..., 7, pertenece 
X. Cada r hipótesis 


Hj = {X EP) 0) 


será simple y, por consiguiente, se tratará de la verificación de r hipótesis 
simples. 

En este capítulo, al igual que en el capítulo 2, examinaremos con fre- 
cuencia el caso paramétrico cuando la muestra X se ha extraído de la distri- 
bución Po € P= (Po) y¿g- En este caso, al cumplirse las condiciones (40), 
las hipótesis simples se escribirán en la forma: Hj = {X € Pa}, donde 
01, . . -+ 0, son los puntos fijos de O. El caso (1) también puede considerarse 
como paramétrico con un conjunto finito © = (1, ..., r}. 

Estos razonamientos muestran que no hay una diferencia de principio 
entre el problema de estimación de los parámetros y el problema de verifica- 
ción de las hipótesis: en ambos casos determinamos el valor desconocido 
de 6. Sin embargo, existe cierta diferencia y ésta consiste en que en el proble- 
ma de verificación de las hipótesis, los valores posibles de 9 son discretos, 
y los enfoques relacionados con la comparación, digamos, de las des- 
viaciones estándar, desarrollados en el capítulo 2, aquí son inaplicables. 
En este caso escogeremos otros criterios para comparar las reglas de acepta- 
ción de unas u otras hipótesis, basándonos en la muestra X. 

Con el carácter discreto del conjunto de los posibles valores de 6 tam- 
bién está relacionada otra nueva cualidad que aparece aquí: ahora pode- 
mos, con una probabilidad no nula, indicar exactamente el valor 
desconocido de 6; (o la distribución Pa), mientras que en los problemas 
de estimación de los parámetros, la probabilidad de tal suceso es, por regla 
general, igual a cero. 

q 2, Se llama criterio estadístico para verificar r hipótesis 

+» H, toda aplicación medible ô: 2" => (Hı, ..., Ho). 

M otros términos, ô(X) es una “variable” aleatoria que toma los valores 
Hi, Ha, ..., Hr: si 5(X) = Hk, entonces aceptamos la hipótesis Hx (o sea, 
consideramos que 8 = ôr en el caso paramétric 

La aplicación 5(-) se llama, a veces, regla de decisión o función de deci- 
sión, Claro está que la asignación de la regla de decisión es equivalente 
a la partición del espacio 2” en r conjuntos borelianos M1, Mz, ..., Q, 
disjuntos, en los cuales se aceptan las hipótesis Hı, H2, ..., H,, respecti- 
vamente. 
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La calidad del criterio se caracteriza, con más frecuencia, por el conjun- 
to de probabilidades de decisiones erróneas: 


ai = al) = PX gR) = P600 + Hi). 


El número ay es la probabilidad de rechazar la hipótesis H; cuando ésta 
es cierta. Este número se denomina probabilidad del error de i-ésimo género 
del criterio 5, 

Si logramos escoger el criterio ô de modo que todos los números a 
sean pequeños, entonces, según nuestro principio fundamental mencionado 
en el § 2.31, consideraremos que en una sola prueba el error es prácticamen- 
te imposible y declararemos que es cierta la hipótesis Hi si 5(X) = Hr. 
En este caso nos equivocaremos, aproximadamente, en parte de los casos 
ai = Pi(ô(X) # Hi) si en realidad es cierta Hi. 

Es deseable, desde luego, efectuar la verificación de las hipótesis de mo- 
do que se reduzca al minino la probabilidad de todos los errores. No obstan- 
te, si se establece el volumen de la muestra X, entonces no podremos dirigir 
simultáneamente todas las probabilidades de los errores. Se puede sólo, fi- 
jando algunas de las probabilidades de errores, tratar de minimizar las 
demás. 

Aquí llegamos a la cuestión de cómo comparar entre si diferentes crite- 
rios. Introduzcamos en el conjunto de todos los criterios, para verificar 
las hipótesis Mı, ..., H,, un orden parcial. 

Definición 3. El criterio 51 es mejor que el ô si para todos į = 1,2, .. 7 


alô) <as(ó2) 


y al menos para un j tiene lugar la desigualdad estricta. 

Sin embargo, los criterios ô y ô no siempre, ni mucho menos, pueden 
compararse desde este punto de vista. Al igual que pueden ser incompa- 
rables dos estimaciones 6 y 03 desde el punto de vista del enfoque estándar, 
cuando en calidad de criterio tomamos Mo(0* — 6)”. Para tener la posibili- 
mparar los criterios es necesario contraer el conjunto de las reglas 
¡ón que se examinan. Para esto examinemos las clases 


Kama = (6: (8) = 0 j=1,2 ... 1-1) 

En las clases Ka;,....u,.. ya se puede establecer la relación de orden 
entre los criterios en cuanto a la magnitud a,: cuanto menor sea œ,(ô), tanto 
mejor será el criterio. 

Definición 4. El criterio ôo € Ka;,......-, se llama criterio más potente 
(c.m.p)) en la clase Ko,.....u,-, si para cualquier ô € Ka... -19 

aldo) < arts). 


Recordemos que hemos hecho algo semejante en el capítulo 2 al compa- 
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rar las estimaciones. Allí hemos destacado, por ejemplo, las clases Kp de 
estimaciones con desplazamiento registrado. 

A la par con el enfoque recién introducido en la teoría de verificación 
de las hipótesis, al igual que en la teoría de estimaciones, existen otros dos 
enfoques que permiten ordenar el conjunto de todas las reglas de decisión 
con ayuda de una sola característica numérica: son los enfoques bayesiano 
y minimax. 

Antes de estudiar los métodos de construcción de los criterios más po- 
tentes en las clases Kz,....a,-,, EXaminemos estos dos enfoques. 

2, Enfoque bayesiano. Este enfoque supone que la distribución P; de 
la que fue extraída la muestra X se ha elegido aleatoriamente. En este caso 
las hipótesis H) = {X € Py), j = 1, ..., r serán sucesos aleatorios, y desig- 
naremos las probabilidades de estos sucesos por 


QH) = 40, 
así que Q es una distribución a priori en el conjunto de las hipótesis 
(Hi, ..., Er), y q0) son las probabilidades a priori de dichas hipótesis 


(compárese con el $ 2.11). En este caso es más fácil comparar los criterios, 
puesto que aquí podemos determinar la probabilidad media ag(ô) del error 
del criterio 5: 


aot) = E, QDPI + H) = $, aO o 


y de este modo ordenar por completo el conjunto de criterios en cuanto 
a la magnitud «p(ó). 

Definición 5. El criterio ô = ôg que minimiza la probabilidad del error 
aol) se denomina criterio bayesiano correspondiente a la distribución a 
priori Q. 

Supongamos que se cumple la condición (4,), o sea, las distribuciones 
Py tienen densidades //(x) respecto a cierta o-finita medida y. Al igual que 


antes, la función (0) = É, SAX) se llamará función de verosimilitud. 


La función f(x) = ZGA) es la densidad incondicional de la distribu- 
ción de X respecto a la medida y”, y g()/¡G0) es la densidad de la distribu- 
ción compatible del par (0, X) en el que el número 8 de la hipótesis se 
elige al azar. 

Ahora bien, si se da la muestra X, entonces, en el caso bayesiano se 
puede construir la distribución a posteriori Q, de las hipótesis H; (la medida 
h que figura en el $ 2.11, aquí es una medida de cálculo) la cual se determina 
por la fórmula de Bayes: 


Oteo = ak7% = TOAD o 


Esta es la distribución condicional de 0 respecto a X. 
19 8030 
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Por M designaremos la esperanza matemática incondicional que corres- 
ponde a la distribución P del par (9, X). 


Teorema 1. 1) La probabilidad del error ap(5) de cualquier criterio è 
satisface la desigualdad 


agl) > 1- Mmáx g0/2: (5) 


2) Para que el criterio $ = 59 sea bayesiano para la distribución a priori 
Q, es necesario y suficiente que para P de casi todos los valores de X, este 
criterio satisfaga las relaciones 


5X) = Hr si q(«/X)= mixg 6) 
Para 5 = ôq en la desigualdad (4) se alcanza la igualdad. 
Nótese que el segundo miembro en (4) no depende de ô. 


Demostración. Supongamos que se da el criterio ô. Examinemos el suce- 
so Ds que consiste en que el criterio ô conduce a la decisión errónea: 


Ds -Ú 10 = J, 50) = Hj). 


Entonces, evidentemente que ag(5) = P(Ds) y la notación (2) será el resul- 
tado obtenido al promediar sucesivamente: primero respecto a X al ser re- 
gistrado 0 = j, y luego respecto a 6. Pero también podemos escribir œg(ô) 
de otro modo: primero promediar respecto a 6, siendo registrado (X), y 
luego respecto a X: 


aol) = (PDY/X = Su (dx) = 
=MPDYX) = My PO = j, 000 *H/X. 
E 


Pero 5(X) es medible respecto a X, por eso 
PO = j, 500% H/X) = Liso PO = j/% = 0 — Isso 190/2). 
De aquí obtenemos 


ao) =1-M A 40 laom > 1 MmáxU/X). 


La primera afirmación del teorema queda demostrada. 

La suficiencia de la segunda afirmación del teorema se deduce con evi- 
dencia de la primera, ya que la frontera inferior establecida para o-p(5) se 
alcanza para el criterio 69 definido en (5). La modificación de dp(X) en 
el conjunto de P-probabilidad nula, por lo visto no modifica ap(5p). 
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La necesidad de la segunda afirmación se demuestra de manera igual- 
mente sencilla. En efecto, supongamos que ô = ôọ es el criterio bayesiano 
y que 5(X) = Hr, q(k/X) < q(/X) = mira, para X €A, P(4) > 0. 


Entonces, para el criterio 5,(X), que se distingue de 5(X) sólo en el conjunto 
A: 5(X) = Hı para X€ A, obtenemos 


P(Da; A) = P(A) - M [Fauno a] = 


= P(A) — Mlq(/X); A] < P(A) — Mlg(k/X); A] = P(Ds; A); 
P(Ds,) < P(DS) = P(Ds,). 


Hemos obtenido la contradicción. a 

Cabe señalar que la notación (5) aún no define por completo el criterio 
Bo: ella no aclara bien qué hipótesis deben aceptarse cuando resultaron má- 
ximos dos o más valores de q(//X). Se trata, evidentemente, de la definición 
de la función óp(X) en las fronteras 


Tk = (xE2”: Ofk) = máx gO 


de los conjuntos 
ÜP = (xe 2": qaf) > máx qO) (6) 


en los cuales, según (5), como criterio ¿y se toma la hipótesis Hx. 
Por consiguiente, Ú£ es el “interior” de la región 
ÖF = {xe 2": ĉo) = Hx) 

de aceptación de la hipótesis Hx y necesitamos, en adición a (6), determinar 
tan sólo qué puntos de la frontera T% pertenecen y no pertenecen a Af. 
Pero este problema, como se deduce de los razonamientos citados, puede 
ser resuelto muy sencillamente: podemos asociar los puntos de Ty a cual- 
quiera de las regiones “adyacentes” ÕP en este caso obtenemos el mismo 
valor de ap(5), puesto que (5) será cumplida, Mejor dicho, si A C 
CIk N... NIk, entonces para X€ A, según el criterio bayesiano, no 
importa cuál de las hipótesis Hx,, .. ., Hi, será aceptada. Podemos inclu- 
so tomar la decisión “s azar, o sea, con probabilidad px, elegir la hipótesis 


Hi i= 1... l, 3) px = 1. En este caso el valor de ag(ô) no variará. 
Aa 


Aquí llegamos a un concepto más general del criterio estadístico rando- 

mizado (de la palabra inglesa random) que resulta muy útil. 
Definición 6. Se llama criterio estadístico randomizado, para compro- 

bar las hipótesis Hi, ..., Hr, cualquier aplicación medible m: 2" + RO, 


donde R® es el conjunto de vectores (11, ..., x), m>0, D m= 
izi 


19* 
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El criterio randomizado, a cada x € 2” le pone en correspondencia con 
la distribución de las probabilidades m(x) = (m(x%), . . ., ar(x)) en el conjun- 
to [H, ...., Hr), y la decisión final acerca de la aceptación de la hipótesis 
“se sortea” al azar con esta distribución ya independientemente de X, des- 
pués de haber determinado T(X). 

El criterio estadístico ordinario es, evidentemente, un caso particular 
del randomizado, cuando todos =; equivalen a O y sólo uno es igual a 1. 
Tales criterios adquirieron el nombre de criterios no randomizados. 

El error de ¡-ésimo género «u(r) para el criterio randomizado se determi- 
na análogamente: 


aux) = P; (no aceptar Hi) = 1 — Mim X). 


En el caso bayesiano, el problema de minimización 
aglr) = È aa 


se examina de manera absolutamente semejante. Si, como antes, designa- 
mos por 0 el número de la hipótesis elegida al azar, con una distribución 
a priori Q, de modo que Q(8 = j) = qU), y por M, también como antes, 
designamos el símbolo de la esperanza matemática incondicional, entonces 


aalr) =1- È OMT) = 1 - MO = 1 - MM(T(X)/X) = 


mv, “$ aX yx) > 1 Mméxa(/X) 
y 


Así pues, hemos obtenido la misma frontera inferior tanto para ag(r) 
como para los criterios no randomizados. Esto significa que ampliando 
la clase de criterios, en nuestro caso no podemos mejorar el valor de œọ(ô). 
Es más, el valor mínimo se alcanza en el criterio no randomizado ôọ. Sin 
embargo, en este caso el número de criterios randomizados bayesianos xr, 
o sea, de criterios para los cuales ap(x2) = ap(5p), será mucho mayor que 
los no randomizados, ya que en el conjunto 


1 
Prue = MT N Ty 
iel JA ki 
donde Y = Z”NT, podemos tomar, en calidad de 2(x), cualquier vector 
del subconjunto Rx,,....k CR” compuesto de vectores x en los cuales só- 
lo se diferencian del cero las coordenadas con números kı, ..., Ki. Es evi- 
dente que Re se compone del único vector ex en el que la K-ésima 
coordenada es igual a 1, y las demás, a cero, y debemos poner 


rx) = ex cuando xeĝf. 
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Como las relaciones expuestas con una exactitud de hasta los valores 
de m(x) en el conjunto de P-medida O, son necesarias y suficientes para que 
ag(r2) = aolo) = 1 — MmáxqU/X), 
podemos, a la par con el teorema 1, enunciar la afirmación siguiente: 
Teorema 1A. 1) Para cualquier criterio randomizado, 
ao(rt) > 1- M mixg: 
2) Para que el criterio x% sea bayesiano es necesario y suficiente el 
cumplimiento de las relaciones 
x(x) = ex cuando xeÚ£, (mM 
TOR) ERK,,...k cuando XxEDk...k 


para P de casi todos los valores de x. , 
3) Para todos gj > 0,j = 1, ... r; 2 g= 1 es válida la desigualdad 
ia 


aglr?) = E aar?) < Da] a0 -= 2). ® 


Si ma > 0 y no todos f(x) coinciden, o sea, si existen los valores k, 


jy el conjunto A, P(A) > 0 en el que fe(x) # fi, entonces el signo en 
la desigualdad (8) será estricto. 


Observación 1. De (8) se deduce que 
aol?) < 1 — máx q0). 0) 
Aquí en el segundo miembro figura la probabilidad del error del criterio 
que elige Hi si g(k) = máx q) (éste es el criterio bayesiano entre todos 


los criterios no dependientes de la muestra X). 

Demostración del teorema 1A. Ya hemos demostrado las dos primeras 
afirmaciones, Para demostrar la última afirmación es suficiente comparar 
el criterio bayesiano x° con el criterio =° (X) = g = (81, ..., gr) no depen- 
diente de X y para el cual, como es evidente, ay(x°) = 1 — gj, 


aotr°) = E qO — 2) > aolr®). 


Si en (8) tiene lugar la desigualdad, entonces el criterio =°(X) = g = 
= const será bayesiano. Según la segunda afirmación del teorema, esto es 
posible únicamente en el caso cuando q(1/X) = ... = q(r/X) P casi por 
doquier. Esto, a su vez, es posible únicamente cuando f(X) = ... = f(X) 
P casi por doquier, g(1) = ... = g(r). < 
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Así pues, la introducción de los criterios randomizados no permite dis- 
minuir la probabilidad del error de «y, pero aumenta la propia variedad 
de los criterios y, en particular, el número de criterios bayesianos 9. Esta 
circunstancia resulta, a veces, útil. 

En lo sucesivo, por criterio estadístico entenderemos, por regla general, 
el criterio randomizado x. 

3. Enfoque minimax. Mientras en el caso bayesiano hemos medido la 
calidad del criterio según la magnitud media ag(x) = Zq(Jayx(*), ahora 
compararemos los valores máximos 


a(x) = máxay(r) = máx ag(r). 
J e 


Es evidente que esto también permite ordenar el conjunto de todos los cri- 
terios. 


Definición 7. El criterio x = 7 para el cual 
aī) = mína(x) 

se llama criterio minimax. 

La siguiente afirmación es el análogo completo del teorema 2.11.2. 

Teorema 2. Supongamos que existe el criterio bayesiano 7 (correspon- 
diente a cierta distribución a priori Q) para el cual 

a) =... = am). (10) 

Entonces 7 es el criterio minimax. 


Demostración. Designemos por 34) las distribuciones a priori corres- 
pondientes a Q. Entonces para cualquier criterio ~ tenemos 


atm) > Da] > Y UA = máx o) = aG). < 


La distribución Q = {ẸQ)) correspondiente al criterio 7 se llama crite- 
rio peor (o criterio menos favorable, compárese con el § 2.11). Esto está 
relacionado con el hecho de que para Q =Q se alcanza 


más aglr?) = máx mín ao(z), 


así que el criterio minimax (10) es el criterio bayesiano que posee la mayor 
probabilidad de equivocarse. La demostración de este hecho se puede hallar 
en los capítulos posteriores, donde también mostraremos que la peor distri- 
bución y el criterio minimax siempre existen. 

Sin embargo, es preciso señalar que a distinción de los criterios baye- 
sianos, los criterios minimax no randomizados existen no siempre, ni 
mucho menos. El asunto consiste en que las fronteras separadoras Tx de 
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los conjuntos MP (véase (6) pueden tener una probal 
Pe(X € Tx) > 0 y, por lo tanto, los valores de ax(5p), al modificarse conti- 
nuamente Q, pueden variar a saltos. Esto quiere decir, a su vez, que 7 — 1 
ecuaciones as(d9) = ... = alg) para r—1 desconocidas q(1), . 


E i ad] (aw =1- 2 qU)) pueden no tener solución. No 


obstante, en la clase de criterios bayesianos randomizados, el criterio mini- 
max existe siempre. En calidad de ilustración examinaremos detalladamente 
esta cuestión (para el caso r = 2) en el párrafo siguiente. 
Así pues, hemos hallado la forma explicita de los criterios bayesianos 
y hemos establecido que con su ayuda se pueden construir los criterios mi- 
nimax. Resulta que de manera análoga también se pueden construir los 
criterios más potentes en las clases Ko,,....a,., introducidas en el punto 1. 
4. Criterios más potentes. La definición del c.m.p. no randomizado fue 
dada en el punto 1. Aqui será cómodo extender esta definición a la clase 
de criterios randomizados. Supongamos que, análogamente al punto 1, 
Ko,....0.., Significa la clase de criterios randomizados con valores es registra- 
dos de las probabilidades de los errores de j-ésimo género, j = 1, ..., 7 — 1; 


Kasa = mama j= 1)... r- 1). 


Definición 8. El criterio mo € Ka,.....a.., $e llama c.m.p. en Ka, 
para cualquier m € Ko,....c-i 


armo) < ar). 


Teorema 3. Supongamos que existe una distribución Q = (q), 
«+ 9()), tal, que 


a(x?) = 1 - MRV) = a jel, -1 an 


(en realidad, aquí tenemos r — 1 ecuaciones para los valores desconocidos 
de q(1), ..., g(r — 1). Entonces el criterio bayesiano x°, definido en (6) 
y (0), será el más potente en la clase Ko.....o.:: 


Demostración. Según la definición del criterio bayesiano, 
ap(r?) < agla). 
Esto significa que para r€ Ka,....o.., tendremos 


È aalr?) < 2 0w + aal). 


Pero ají?) = a; para j <r — 1 y, por consiguiente, œr(x?) < a(z). < 
Aquí, por la misma causa que al hallar los criterios minimax, las 
ecuaciones (11) en la clase de los criterios no randomizados $ no siempre 
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son resolubles. En la clase de criterios randomizados, la situación cambia 
considerablemente. Esta circunstancia será ilustrada en el párrafo siguiente, 

Ahora citemos el ejemplo de un problema real muy difundido, acerca 
de la verificación de un número finito de hipótesis simples. 

Ejemplo 1. Supongamos que la hipótesis H; significa que un paciente 
que vino para ser reconocido por el médico, está sano, mientras que Hr 
significa que el paciente padece de cierta enfermedad Ax, k > 2. La tarea 
del médico consiste en aceptar una de las hipótesis Æj, basándose en las 
observaciones (que pueden ser escritas en forma del vector xı = (Xi, 
Xiz; + X14) que es de por sí la muestra multidimensional X de volumen 
unitario). Fijaremos las enfermedades Ax para que las hipótesis Hx sean 
simples y asimismo determinen por completo la distribución de la muestra 
X. Si el médico acepta la hipótesis Hx, k > 2, mientras que en realidad 
es cierta la hipótesis H,, entonces cometerá un error de un tipo. Pero si, 
al contrario, reconoce sano (H1) al enfermo (Ax), entonces comcterá un 
error de otro género, No es difícil comprender que los “efectos” producidos 
por los errores de estos dos tipos pueden ser muy diferentes. 

De los resultados expuestos anteriormente deducimos que para cons- 
truir la mejor regla de decisión, debemos saber las distribuciones del vector 
de las magnitudes observables (X11, . . ., X1,) para individuos sanos y para 
individuos que padecen de la enfermedad Ax (para ello necesitamos muchos 
datos estadísticos de exámenes médicos). Por supuesto que una gran parte 
del problema aquí consiste en la propia elección de s y de las observaciones 
(Xi, X12, - +», Xis). Precisamente en esto se manifiesta principalmente el 
arte y la experiencia de los médicos. 

Si el vector (X11, - . ., Xu) se ha elegido de manera bastante argumenta- 
da, los teoremas 1—3 nos indicarán la vía directa para algoritmizar los 
problemas de la diagnosis de las enfermedades. 


$ 2. Verificación de las hipótesis simples 


En este párrafo examinaremos un poco más detalladamente un caso parti- 
cular, cuando se verifican r = 2 hipótesis simples. 

En los problemas de verificación de las hipótesis, estas últimas desempe- 
ñan a menudo un papel asimétrico, como ocurrió, digamos, en el ejemplo 
1.1. Por eso, una de las hipótesis, por ejemplo Æ, suele llamarse fundamen- 
tal y las demás, alternativas. En este caso, la probabilidad del error de pri- 
mer género aœ (ô) del criterio ô también se denomina dimensión, y el número 
1 — ax(8), nivel del criterio. El número £(5) = 1 — aa(6) se llama potencia 
del criterio. 

La región Mz C 2” de aceptación de la hipótesis Ha por el criterio no 
randomizado ô, en el caso de 7 = 2 se denomina región crítica. La probabili- 
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dad P2(X € %) de caer en esta región, cuando es cierta H2, equivale a la 
potencia del criterio 8(5). De aquí procede la denominación de “criterio 
más potente” para el criterio ô con el que $(8) alcanza su máximo para 
un nivel registrado del criterio $, 

Señalemos ahora, que en el caso de r = 2, cualquier criterio, incluso 
el randomizado, puede caracterizarse por una función numérica. En efecto, 
el criterio randomizado arbitrario x(x) se define totalmente por el valor 
de su r coordenadas r1(x), ..., r-(x)). Pero como Exy(x) = 1, en caso de 
r = 2 es suficiente designar una función, digamos, m(x). Esta función de- 
termina la probabilidad de que se acepte la alternativa Hz. Designémosla 
por x(x) y llamémosla función crítica del criterio x que designaremos con 
la misma letra r. Es evidente que para los criterios no randomizados, m(x) 
sólo adopta los valores de O y 1; en el caso general 0 < (9) < 1. 

La dimensión a(x) del criterio (0 ô) y su potencia B(x) se expresan 
a través de m(x) del modo siguiente: 


a(r) = Mir(X), B(r) = 1 — a(x) = Mar(X). 
Designemos por Z la relación de verosimilitud 
Z = Zx) = ONAC) 
que examinaremos sólo para los valores de x, con los cuales ella está defini- 
da, o sea, para x cuando f(x) + f(x) > 0. 


Teorema 1. 1) Supongamos que c = q(1)/4(2), donde Q = (40), qQ2)), 
y que q(2) = 1 — q0) es una distribución a priori dada. Entonces el criterio 
Zc,p Con la función crítica 


l, si Zœ) >c, 
mep) = JPO) si Z) =c, a) 
0, si Z)<c, 


para cualquier función medible p(x), O < p(x) < 1, es bayesiano para la 
distribución Q: Te.p = r? 

Los parámetros (Te. K) y &2(Te.p) del criterio "c.p satisfacen la des- 
igualdad 


2 2 
pa OS A O) 2) 
jfa = 


para todos 8j > 0, 8: +82 = 1. 

2) Para £ > 0 dado, tal que Pı(Z > 0) > e, existen c > 0 y p(x) = 
= p = const rales que Te.p € Ke = [mi ar(x) = €), y Te.p es el c.m.p. en Ke. 
Los números c y p se definen como la solución de la ecuación 


(rep) = Mi Tep X) = PAZO > 0) + PPZ) = 0) = €. 6) 
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En este caso la potencia del criterio B(x«.p) = 1 — ar(xe.p) satisface la des- 
igualdad 
Blre.p) > e. w 


Si no se cumple la relación f(x) = fix) cà. lu), entonces, las desigualdades 
(4) y (2) para 0 < q, < 1 son estrictas. 

El criterio xe.» minimiza la probabilidad del error de primer género 
a(r) en la clase K de todos los criterios x con una probabilidad fija del 
error de segundo género: K = |7. aa(x) = Gz(re.): 

3) Existen c > 0 y p(x) = p = const tales, que el criterio Z.p será mini- 
max. Los números € y p se determinan de la ecuación ax(Te.p) = A2(Tap) 
o bien, que es lo mismo, de la ecuación 


PZO > 0) + PAZ) > 0) + PIP ZOO = © + Pa(Z(X) = 0)] = 1.05) 


Es evidente que si la Pydistribución de Z(X) es continua, o sea, si 
PLU(Z(X) = c) = 0 para todos c > 0, entonces, en las dos últimas afirma- 
ciones del teorema podemos poner p = 1 ó p = 0. 

Nótese también que 


PZW =0= 


= f Aud = f AO pd = LPZ = 0 
Zine Zee pa 


así que la continuidad en (0, co) de la Pyrdistribución de Z conduce a la 
continuidad de la P>distribución de Z. 

El criterio "e.p, basado en la relación de verosimilitud Z, se llama crite- 
rio de la relación de verosimilitud. 

El teorema 1 muestra que todos los criterios óptimos son criterios de 
la relación de verosimilitud. 

La segunda afirmación del teorema 1 lleva el nombre de lema de 
Neyman — Pearson. Si en esta afirmación, la condición P.(Z > 0) > e no 
se cumple, o sea, si P-(Z = 0) = 1 — ô, ô< e, entonces el c.m.p. r(x) = 
= Iizgy>0) tendrá potencia 1 y dimensión 5 < £. Por ejemplo, si los por- 
tadores de las distribuciones Pı y Pz son disjuntos, entonces Z = 0 en el 
conjunto donde f1(x) > 0 y, por lo tanto, P/(Z > 0) = 0. En este caso, las 
hipótesis M, y Ha se distinguen por una observación, con probabilidades 
de errores iguales a cero, o sea, se distinguen de un modo determinado. 

Demostración del teorema 1. La primera afirmación del teorema es el 
corolario directo del teorema 1.1A. 

Para demostrar la segunda afirmación se puede hacer uso del teorema 
1.3. Mostremos primeramente que la ecuación (3) es siempre resoluble res- 
pecto a e y p. Es evidente que la función p(c) = P,(Z > c) no crece en 
[0, œ). La variable aleatoria Z es propia con respecto a la distribución Pı, 
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o sea, 
ple) = P(Z > 0) = 


= | Aora f hd = LP Z> A0 
2b>e 20»: 


cuando c => co. Como, según la condición, p(0) > e, entonces existirá ce € 
€(0, 00) tal, que (p(c) será continua a la derecha) 


plc -0>E, pla) <e. (6) 


Si en (3) suponemos que € = ce, y designamos A: = plc; — 0) — p(ce), ob- 
tendremos 


eu(re,.p) = plce) + påse. 


Es evidente que aquí, en virtud de (6), siempre se puede escoger p € (0, 1] 
de modo” que p(ce) + på: = €. 

Ahora podemos proceder igualmente que en la demostración del teore- 
ma 1,3. Pongamos q(1) = g: = Ce/(ce + 1) y fijemos el p que hemos elegi- 
do. Entonces, el criterio mep será bayesiano, correspondiente a la 
distribución Qe = (qe, 1 — PA y al mismo tiempo on(re,.p) = £. Esto sig- 
nifica, en virtud del teorema 1.3, que xe,.p €s el cm, p. en Ke. 

Si tomamos el criterio r(x) = e, obtenemos 


m € Ke, aalTe p) S ala) = 1 — €, B(Te,.p) > €. 


No es otra cosa sino la desigualdad (2) ((1.8)) para g2 = £. Por consiguiente, 
si la relación f2(x) = fı (x) cd. [p] no se cumple, entonces estas desigualda- 
des serán estrictas. La afirmación del teorema acerca de la minimización 
de ax() en el criterio e, p de la clase X = (xr: ar(x) = ar(me,p)) se deduce 
de los razonamientos anteriormente aducidos y de la simetría con respecto 
a las hipótesis Hı y Ha del planteamiento del problema en la primera afir- 
mación del teorema. 

A fin de demostrar la tercera afirmación del teorema 1 conviene valerse 
del teorema 1.2. Para esto sólo necesitamos comprobar si la ecuación 
ar(me,p) = (me, p) es resoluble respecto a c y p. Esta ecuación se puede 
escribir en la forma 


Mite p(X) = 1 — Mare p(X) 
o bien, que es lo mismo, en la forma de (5). Su solubilidad se deter- 


? Está claro que si p(c) es continua en el punto ce, el problema de resolución de (3) 
se reduce a la determinación de la cuantila de distribución de Z de orden 1 — £. 
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mina al igual que la solubilidad de la ecuación (3). Sólo es necesario 
señalar que siempre Pi(Z > 0) + P2(Z > 0) > 1, ya que Pa(Z > 0) = 


=d Aid) = 1 a 
>0 


Hemos visto una vez más que el objetivo de la introducción de los crite- 
rios bayesianos randomizados consiste en asegurar la variación “continua” 
de los parámetros de dichos criterios (los posibles valores de las dimen- 
siones de los criterios re,» llenan todo el intervalo (0, 1)). La falta de tal 
variación continua de los parámetros, relacionada con el hecho de que en 
el conjunto de la Py-probabilidad positiva es posible la igualdad fi(x) = 
= ef (9), constituye el principal obstáculo al hallar los criterios de un nivel 
dado o los minimax en la clase de criterios no randomizados. Este cuadro 
también se conserva por completo en el caso de verificación de un número 
mayor de hipótesis, 

"También es importante señalar que dos tipos de criterios óptimos — 
los más potentes y los minimax — resultan bayesianos en unas u otras 
distribucions a priori. Tampoco es difícil notar que la clase de todos los 
criterios más potentes coincide, desde cierto punto de vista, con la clase 
de todos los criterios bayesianos. Tal situación, en la que en calidad de 
base para la elección de los criterios óptimos puede utilizarse el enfoque 
bayesiano, también se conservará en mucho posteriormente. 

Ejemplo 1. Examinemos el ejemplo 2 citado en la introducción. En este 
ejemplo, las hipótesis A; y Ha tienen la forma Hi = (xi € F()), M = 
= (xi € F(x — a)), donde F(x) es una función dada de distribución, y a, 
un número dado. Supongamos que F(x) tiene densidad f(x) y que la va- 
riable aleatoria (xı — a)/f(xı) tiene una distribución continua. Entonces, 
según el lema de Neyman — Pearson (punto 2 del teorema 1), entre todos 
los criterios de nivel 1 — e, el criterio 


fu -a) 


ma > 


lar 


será el más potente en el problema sujeto a examen, dedicado a la verifica- 
ción de la hipótesis A, (falta el objeto), frente a la hipótesis Ha (cl objeto 
está presente). El número ce se determina de la condición 


(Nile ma) =. 


tal 


Si n son grandes, para el cálculo de esta probabilidad podemos, evidente- 
mente, hacer uso del teorema central del límite. 
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$ 3%. Dos enfoques asintóticos del cálculo de los criterios. 
Comparación numérica 


1. Observaciones preliminares. En los $$ 1 y 2 hemos hallado la forma de 
los criterios óptimos para verificar las hipótesis simples. El término “cálcu- 
lo de los criterios” que hemos usado en el encabezamiento significará el 
cálculo de los parámetros que caracterizan el criterio. En el problema del 
cm.p. esto es, en caso de r = 2, la búsqueda de las magnitudes c+ y p para 
£ > O dado la determinación de la probabilidad del error de segundo género 

oa(re,,p) O bien, que es lo mismo, de la potencia del criterio 
Pre, =l- @2(Te,,p). La cuestión también puede ser planteada de una 
manera algo distinta. Hemos visto que en caso de r = 2 todos los criterios 
óptimos tienen la forma de las funciones e,» representadas en (2.1). Supon- 
gamos que se da el criterio xe,p. ¿Cómo determinar para él las probabilida- 
des de los errores au(re,p)? 

Esta misma pregunta también surge, por supuesto, en el caso general 
de r > 2 para el criterio (1.7), pero en este párrafo nos limitaremos, para 
abreviar, al caso de dos hipótesis simples. 

Más abajo se examinan los enfoques asintóticos que permiten resolver 
aproximadamente (con grandes n) tales problemas, Esos mismos enfoques 
también pueden utilizarse para calcular los criterios que se examinarán en 
adelante. 

Así pues, supongamos que se da el criterio (2.1) y que la distribución 
de Z(X) es, para abreviar, continua, así que podemos poner p œ 1. Enton- 
ces, el criterio (2.1) se volverá no randomizado (designémoslo por ôe) y nece- 
sitaremos hallar sus valores: 


aro =r (E > e), w 


a 

Como H(X) = TI H), el suceso que se encuentra bajo el signo de pro- 
lar 

babilidad en (1) puede ser escrito en la forma 


Ax) 
2 nano 
donde los sumandos 
Aed 


bia n] 
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son, evidentemente, variables aleatorias independientes, igualmente distri- 
buidas en cada uno de los casos X € Py, j = 1, 2. 
Ahora bien, el hecho se reduce al estudio de las distribuciones de las 


sumas )) m de las variables aleatorias mi. 
(a 


En lo sucesivo supondremos que el volumen 7 de la muestra X crece 
indefinidamente, En esto caso, por criterio entendremos, en realidad, la 
sucesión de los criterios definidos para cada n (hemos utilizado ese mismo 
acuerdo para las estimaciones en el capítulo 2). 

2. Hipótesis fijas. En este apartado supondremos que las distribuciones 
P; están fijas, o sea, no dependen del volumen n — co de la muestra Xn = 
= [Xe]n. Examinemos el problema de cálculo del c.m.p. de nivel fijo 1 — £. 
Tenemos 


Mino -a = [como sas) = -eP Po < 0, 


Mom b = [AmE udo = ea, Pi) > 0, 
donde q es la distancia de Kullback — Leibler (véase el $ 2.21). Esto signifi- 
pa que, en virtud de la ley de los grandes números, la Py-distribución de 
L 22 m permanecerá concentrada en el entorno del punto —a, y la 
=i 


Pa distribución, en el entorno del punto h. Y esta “separación” de las distri- 
buciones será la mejor desde el punto de vista del lema de Neyman — Pear- 
son. Designemos o? = Dym: y supongamos que af < «o. Entonces 


ab) = Pi (Èr > inc) =P. Er Sé +0> mege) o 
a En 


Escojamos en calidad de ¢ = c(n) toda sucesión para la cual 


Inc + an 
ovn 


donde N es, como antes, la cuantila de la distribución normal de nivel 
1 — e. Entonces, de (2) y del teorema central del límite resulta 


=M, 


al) 1-6 Ee EN o 


Definición 1. El criterio + que satisface la relación 
lim ca(x) = lím Mir(X) = € 


se llama criterio de nivel asintótico 1 — e (o de dimensión asintótica £). 
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Por lo tanto, para 
Inc = ~an + ho Ya + o(Vn), 4 


el criterio ô tendrá el nivel asintótico 1 — e. 

La relación (4) puede considerarse como la solución aproximada de la 
ecuación del número ce para el cual œı(8;,) = e. 

Pongamos, para precisar, Inc = —an + Mo1VA y hallemos, para el c 
elegido, el comportamiento asintótico de la probabilidad del error de segun- 
do género: 


ato =P: (DIm<mne) =P: (Dm< -an + enn) = 


Gea aa 
a 
=P: E Za -b)<(a+ dVn/a + Novoa). © 


Como —(a + b)Vn/oz + do/0 > —œ cuando n — œ, aquí la aplica- 
ción del teorema central del límite sólo nos da que œz(ô:) > 0. 

El problema de cálculo del comportamiento asintóticamente exacto del 
segundo miembro en (5) conduce al problema de las probabilidades de 
grandes desviaciones para las sumas de variables aleatorias nj. 

Presentemos aquí los resultados de las probabilidades de grandes des- 
viaciones, expuestos en el $ 5 del capítulo 7 [11]. Supongamos que es necesa- 


n 
rio calcular el comportamiento asintótico P ( Y & >x) cuando n > œ, 
(a 
x> co, donde Es son independientes y están igual distribuidas. Admitamos 
que la distribución Es tiene una componente absolutamente continua y que 
YO) = Me™ < co 
para ciertos A > 0. Supongamos, además, que 
Mr = sup (MN YO) < œ}, (6) 
Ala) = —inf [ak + In yO), 
y que Ma) es el valor de A con el que se alcanza este inf [-). 
Entonces, es válida la afirmación siguiente. (Véanse los teoremas 9 y 


10 del $ 5 del capitulo 7 [11]. Las condiciones Dë; = 1 y Mé, = O que figuran 
en estos teoremas no desempeñan ningún papel). 


— nMts 
n 


Teorema 1. Supongamos qu — «o de modo que 
Y QA.) 


im supž < a =S 
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Entonces la ecuación 

. AN =y 0 m 
para el punto Ma) tiene, cuando a < a+, la única solución, 


> f Ñ 
r È >) -nTa P TAD), ® 
donde 


e VO a 
at, GA a. 


Además, son válidas las relaciones 
AM) =0, A'(0) = Ma), 
== AD —Á 
=N A = a) - «NY 
Volvamos ahora al cálculo del comportamiento asintótico de la magni- 
tud az(&) definida en (5) e igual a 
P: (- 3 m> an — y Ya) =P ( E (m + b) > (a + bn = Vi) 
pa A 


cuando y = M01. Para hacer uso del teorema expuesto es necesario poner 


fa) 
si AED’ 


Entonces, cuando 0 <A < 1, obtenemos 
VO = Me™ [AICA ld = 
` 1 
= [AOA < (frena) (jamas) = 1 


De aquí asimismo se deduce que y(Y también será finito en cierto en- 
torno del punto A = 1 si 


$ == x= an — yVn. 


MAONO ald < eo o 
para cualquier y > 0. Luego, la ecuación para el punto Ma) tendrá la forma 
-a+ HN =o, 

o bien UN 


VO AAA MS ax) = 
= AAA a. (10) 
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Sia = a =P, P) = [100 A (dx), entonces (10) será satisfecha 
cuando A = 1. Esto quiere decir que 
Ma) =1, YA) = 40) = 1. 


De aquí se desprende que 


A(a) = ax(a) — In y(Ma)) = a, 
vom == rato) uan, 


va = 4" (1) - è = oẸ, 
A’ (a) = Ma) = 1, A” (a) = at 


Las condiciones del referido teorema se cumplirán si 
1) la Prdistribución de In p tiene una componente absolutamente 


continua, 

D) ANONO (dx) < © para cualquier y > 0. 

Teniendo en cuenta que en nuestro caso las funciones g(a), Aa), A” (0) 
son continuas en el entorno del punto az = a y que a = x/n = a — y/vVn, 

=n- +2 th 

obtenemos A(a) = a + ri a 8) 

Por lo tanto, ahora podemos enunciar el siguiente corolario del teorema 
citado. 

Corolario 1. Supongamos que se cumple la condición (9) que la 
Pedistribución de In L£D tiene una componente absolutamente continua. 


AG) 


Entonces, cuando n ~ co, 


ato = Pe ( Ssa sva) ~ 


imi 


z z —¿— xp { -na + yVn — y/o = 


-zj exp f ~ng:(Pı, P2) + Noiva — N/2). (11) 


20—8030 
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Ahora bien, a2(5.) decrece exponencialmente” cuando n — co. 

No es difícil ver que si tomamos un c registrado en (1), ambas probabili- 
dades a1(0.) y a2(8-) decrecerán exponencialmente, al igual que el valor 
de «o(5p) para cualquier Q registrado. Como 


A, 
mía yA) = min Hi — X, 


M0” = frw BON dx) = v0 -N, 


entonces œ (8:) y a2(8:) decrecerán con igual velocidad (su dependencia de 
n será la misma). Esto quiere decir que el criterio minimax corresponderá 
a cierto c registrado, cuyo valor aproximado se determina fácilmente resol- 
viendo la ecuación œ (ô) = œz(ô) y utilizando el análisis asintótico del se- 
gundo miembro (8) cuando a = c/n, n — œ. 

La aproximación exponencial (11) actúa bastante bien con grandes n 
siempre que la desviación normalizada 


O oi(Pa, P) = Net 05) 


también sea grande (véase la enunciación del teorema). 

En los problemas aplicados, donde el número n está limitado por valo- 
res del orden de 100, esta condición se cumple rara vez y el valor de (13) 
a menudo resulta comparable con 1. Esto dificulta la utilización del referido 
enfoque del cálculo de az(ô:) y corresponde a la situación en que el valor 
de ax2(5,), junto con a (ôe), no es muy pequeño (tiene una magnitud compa- 
rable, digamos, con 0,1). Al mismo tiempo, los valores de n del orden de 
100 son completamente suficientes para la aplicación satisfactoria del teore- 
ma central del límite en la zona de “desviaciones normales”. 


"A la vez hemos obtenido la posibilidad de dar una definición más de la distancia de 
Kullback — Leibler: 


a(Pı, Pa) = — lim hinata = -ih 


L inf In oaf). 
EA 


Con arreglo a esto se puede señalar que ese mismo orden de pequeñez exp { -ngi (Pı, P:)} 
es propio de la Pa-probabilidad de que la función em pírica de distribución F5 vaya a parar 


al entorno de la función de distribución F; correspondiente a Pı. Mejor dicho, si 3 = ¿(n) + 0 
bastante lentamente, aksn 


— tim } Lin Pasupl F30 — FOI < 6) = ePi Pa) a 
(teorema de Sanov). Por consiguiente, la distancia @ı(P, Pa) tiene un sentido probabilístico 
profundo. Superando ciertas dificultades, el lector puede obtener (del teorema 6, $ 2, capítulo 
V en [11)) la demostración de la relación (12). 
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Ahora bien, la cuestión que nos interesa consiste en saber cuando pode- 
mos usar las aproximaciones normales 


cab) = Pi (Enano) =1-8 EA. 


ovn 


caló) = Pa (Èa <me) =è Csen) a9) 


iei 


a fin de calcular ambos valores de œ(ô:) y aœz(.). 

Para fundamentar las fórmulas (14) surge otro enfoque basado en la 
suposición de que las hipótesis Hı y H2 son próximas. 

3, Hipótesis próximas. Aquí examinaremos la muestra X en el esquema 
de series y estimaremos que las distribuciones P; y Pz dependen de n de 
modo que 

extP,, Pa) + ex(Pa, Pi) > 0 as) 
cuando n — co, y la sucesión (13) converge hacia el límite positivo finito. 

Para facilitar los razonamientos y hacerlos útiles en la exposición ulte- 
rior, aquí nos limitaremos al caso paramétrico cuando X € Py. 

=(0=01), H= {8 = 0}, 
y la familia (Po) satisface las condiciones de regularidad (RR) (véase el 
$2.24). 

Hagamos primeramente algunas observaciones no formales que expli- 
can la esencia de la cuestión, Examinamos las hipótesis próximas, o sea, 
supongamos que 0 = 0, + d, donde 5 es pequeño. En este caso, el logarit- 
mo de la relación de verosimilitud, a base del cual se construye el c.m.p., 
puede representarse en la forma” 


nA- ôL'(X, 0). 16) 


La estadística U = L’ (X, 01), es decir, la parte principal en (16), es llama, 
a veces, aporte eficiente. Si la»hipótesis H; es cierta, entonces 


Me, U =0, Da, U = n1(61). 
Como 


L'(X, 01) — L' (X, 02) ~ L” (X, 02), MaL” (X, 6) = —ni(02), 
entonces 


Me, U ~ ón1(62) ~ ón1(61), 
De, U ~ ni(02) ~ nI(61). 
® El signo ~, aquí utilizado, significa la equivalencia asintótica cuando ¿=> 0. 
20* 
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Esto quiere decir que las distribuciones de U para las hipótesis Hi y Hı 
y Para grandes n serán distinguibles siempre que la_magnitud Mo,U — 
— Me, U ~ ón1(0,) sea mucho mayor que VD U ~ Vn1@1) o comparable 
con ésta. En otros términos, debe cumplirse la igualdad ón = vv, v 0, 
o bien, que es lo mismo, ô= v/V. 
Así pues, pasando a una exposición más exacta, supongamos que 
02 = 61 + v/Vn, (7 
donde consideraremos registradas las magnitudes 0, y v. 
Siguiendo las designaciones del capítulo 2, pongamos 
Sar v 
20 > YO = nz G) 


Entonces 


S f0 
Zn hz e. Yau). (18) 
En virtud del teorema 2.29.3 para X € Ps,, tenemos 


Y (0) = nv — F IO) + en, 09 
donde a En I-01) € $0,1. Análogamente, para X € Po, 
-Yal o) = nv +4 OO) + 60, 
donde enzz 0, EI 1905) € 60,1. 
Como 1(63) — 1(0), obtenemos que para la hipótesis Hj, j = 1, % 
Dom > Elvi VIOD + (E 100, E € Bo. 


ls 
Esto significa que del teorema 2.29.3 se deduce el 
Corolario 2. Supongamos que se cumplen las condiciones (RR), (17). 


Entonces, para cualquier c registrado son válidas las fórmulas (14) o bien, 
más exactamente, 


a o) +ine 
md = Pa( Zym > ine aw) 
a 
i e 
- 516) + Inc 


at = Pa (Dm < me ear 


$ 3%. DOS ENFOQUES ASINTÓTICOS 309 


Definición 2. Los criterios rr, y 72 se llaman equivalentes asintóticamen- 
te si 


lím sup lay(r) — a(r) =0, j= 1, 2. 


El criterio ~ se llama criterio asintóticamente más potente (c.a.m.p.) si 
el mismo es asintóticamente equivalente al c.m.p. 

En vista de que en las representaciones (18) y (19), £n = L'(X, 09n7?, 
de éstas se deduce que el criterio ô, con la región crítica 


vL'(X, 01) _ 10) + 2lnc 
VnI0) e de Zivi viO * 


(aquí tiene importancia el signo de v) tendrá los mismos valores límites 
a;(ô) que el criterio ôs y por consiguiente, será el c.a.m.p. 
Además, en virtud de los resultados del $2.29, 


ln = L'(X, 09/Vn = (° — OINALONA + en(X, 0) 
E(X, 01) no De aqui resulta que el criterio con la región crítica 


v(ĝ* — 0) VAT) > vd, 1949) 


también será el c.a.m.p. 

Para obtener el c.m.p. óe de nivel asintótico 1 — £, es suficiente eñ (20) 
poner d = Xe. La probabilidad del error de segundo género az(8e) conver- 
gerá hacia B(—vVI(01) + Mo). 

Para c = 1 ambos límites en (20) tendrán el mismo valor: 


lím ay(8.) = H(—vVI(0)/2). 


En este caso, el criterio ôe (compárese con el teorema 1.2) es natural llamarlo 
asintóticamente minimax. 

4. Comparación de los enfoques asintóticos. Ejemplo numérico. En los 
apartados 2 y 3 hemos examinado dos enfoques asintóticos (cada uno de 
los cuales está justificado en determinadas condiciones) que permiten indi- 
car los valores aproximados de las probabilidades de los errores de primero 
y segundo género del c.m.p.” En el caso de hipótesis registradas, estas fór- 
mulas se dan en (3) y (11), y en el caso de hipótesis próximas, en (14) y 
(20). Las fórmulas (11) y (20) son una aproximación secundaria en compa- 


% Nótese que a la par con los dos enfoques propuestos se puede examinar un espectro 
entero de casos intermedios, los cuales en el lenguaje paramétrico pueden representarse en 
la forma (compárese con (17)) @ = M + 2n 77, O < y < 1/2. Las hipótesis próximas de tal 
género representan interés al seleccionar las fórmulas aproximadas que reflejan lo más exacta- 
mente una situación concreta dada. 
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ración con (8) y (14), por eso es necesario, en la medida de lo posible, dar 
preferencia a estas últimas. 

Ya hemos señalado que para pequeños valores de œ (ô), 2(5) (digamos, 
del orden de 0,01 y menos) conviene más utilizar el enfoque relacionado 
con las hipótesis registradas. Aquí es importante tener una precisión relativa 
de aproximación bastante buena, la cual es asegurada por las fórmulas (8) 
y no es garantizada por el teorema central del límite. No obstante, si (3) 
y a2(8) son comparables con 0,1 (digamos, > 0,1), se puede recomendar 
el segundo enfoque, considerando la segunda hipótesis dada Hz = {0 = 
= 02) como un elemento de la sucesión de las hipótesis próximas Ha,n = 
= (0 = 01 + v/V/n), donde, evidentemente, es necesario, para 0, y 02 dados, 
poner v =Vn(9; — 61). Como los valores «1 (5) y a2(6) esperados no son 
muy pequeños, el valor absoluto de v/VX(9x) no debe ser grande. 

Ejemplo 1. Citemos ahora un ejemplo numérico que ilustra, en cierta 
medida, la relación existente entre los dos métodos de aproximación pro- 
puestos anteriormente, 

Supongamos que X € T»,1, o sea, que x; tienen una densidad 


Sel) = e7", x>0, 


y la hipótesis fundamental Æ; tienen la forma Hı = (0 = 1). En calidad 
de alternativas examinemos las hipótesis simples AS” = {0 = 0,5), HP = 
= (0=08), HP = {0 = 09). 

Basándose en la muestra X, la hipótesis Æ, se verificará frente a una 
de las hipótesis HÝ, j = 1, 2, 3. Ahora bien, aquí 0, = 1, y para 6z hay 
tres variantes: 8z = 0,5, 01 = 0,8 y 62 = las dos últimas de las cuales 
trataremos de examinarlas como correspondientes a las hipótesis “próxi- 
mas” a Hı. Realicemos el cálculo de los criterios para las muestras de volú- 
menes n = 30, 100, 300, 1000. 

En nuestro caso 


(x) 


m=In In 62 — (02 — DXi, 0») 
U(r, xi) = 1 Xi (23) 
6 =1% 


De aquí resulta que el c.m.p. ô, así como ambos c.a.m.p. examinados ante- 
riormente (con regiones críticas en forma de 


(<A y Ô- h <d/mi(0)), di = dÊ), 
tendrán el aspecto: de(X) = HP si 


E a-d d. o 
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Si X € P, (hipótesis H1), entonces 
Max = 1, Dix = 1 = 10) = Mill (xa, D. 


Por lo tanto, si ponemos dı = 2Vn, entonces (compárese con (14)) 


oê) = Pi (Zu- wA) A 


izi 


=P, (52 1%- »>2) ~= 1 — $(2) = 0,023 — (25) 


cuando 7 => œ. Como en nuestro caso 3 m= ninh + (1-0) 3 Xi 


entonces Inc en (14) (o en (20)) está ligado a dı mediante la helación 
Inc = n(In0z + 1 — 62) + (1 — 02)d1. 


A continuación presentamos tres tablas, En todas d, se supone elegido 
de modo que se cumple (25) (o sea, dı = 2V7). En la primera tabla se com- 
paran los valores verdaderos de œs(ô:) con la aproximación (25). En la se- 
gunda tabla se dan los valores verdaderos de la probabilidad del error de 
segundo género a2(8:) y de la aproximación para a2(5.), obtenidos por las 
fórmulas de las grandes desviaciones (8). En la tercera tabla se comparan 
los valores verdaderos de œz(ô:) con las aproximaciones obtenidas por las 
fórmulas de las hipótesis próximas (14). Nótese que aquí utilizamos las 
aproximaciones (8) y (14) sin hacer uso de las aproximaciones secundarias 
(11) y (20) que contienen errores adicionales. Todos los cálculos necesarios 
se exponen más adelante. 

Los números en las tablas 1—3 se dan con una exactitud de hasta dos 
cifras significativas después de la coma. 


Tabla l. Valores de aı(&). Renglón supe- Tabla 2. Valores de ar(5). Renglón superior: va- 


sor: valores verdaderos; renglón inferior: lores verdaderos; renglón inferior: valores aproxi- 
valores aproximaciones (14) maciones (8) o (26) (grandes desviaciones) 


0,031 | 0,028 | 0,026 
¿023 | 0,023 | 0,023 
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La comparación de las tablas 2 y 3 muestra que de acuerdo con las 
observaciones hechas anteriormente, la aproximación basada en grandes 
desviaciones actúa mejor en la parte derecha superior de la tabla (donde 
(61 — 0) Vn = (1 — 0) Vn > 3), mientras que la aproximación basada en hi- 
pótesis próximas actúa mejor en la parte izquierda inferior de la tabla (don- 
de (1 — 02)Yn < 3). Las rayas en las tablas están puestas allí donde la 
aplicación del referido enfoque no tiene sentido (en la tabla 2, por ejemplo, 
la aproximación (8) no se aplica en todos los casos cuando œz(ôe) > 0,1). 
El cálculo de a2(6.), cuando este valor es, digamos, menor de 107, rara 
vez tiene sentido práctico. En la tabla 2 hemos calculado valores muy pe- 
queños de «x2(5:), cuando 02 = 0,5, n = 300, 1000, únicamente a fin de com- 
parar los resultados de los cálculos. 


Tabla 3. Valores de a:(à). Renglón superior: valores verdaderos; 
renglón inferior: valores aproximaciones (14) (hipótesis semejantes) 


15-107? 19:107” 
0,5 31-1074 - 
0,35 0,028 
0,8 0,35 0,031 
0,79 0,53 
0,79 0,52 


Para acabar con los comentarios dedicados a las tablas, es preciso explicar cómo hemos 
calculado los valores verdaderos a(&), į = 1, 2 y en qué se transforman las aproximaciones 
(8) y (14) en nuestro caso concreto. 

El valor de az(&) es igual a 


a= Paf D w- D<). 
a 


Como Max = 1/0,Do,x: = 1/62, la aproximación normal (14) para az(5,) tiene la forma 


be 1 
(2 -1)r +20] ) = - Ir + 
E ( Ja 2) DO — IVA + 285). 


Examinemos ahora la fórmula (8) en la que en nuestro caso es necesario poner Ẹ = w, 
x= -n — 2V. Aquí, la condición del teorema 1, 


x- nMh -2Vn + nih A 
m =vVa -2+00, 
vn va 5 ( z5) 2 j 
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se cumple. Seguidamente, 


YO) = Mae safen 


amo aem m ÉO o, 
xa VO 


E E E A 

až A 

Como lím« = —1 < 0, la condición lím supž < œ, también se cumple. 
sn me R 

En nuestro caso la ecuación (7) tiene la forma 

CS 

A+ b Q+ 
y su solución es Mc) = —l/a — 07. De aquí hallamos 

Ala) = Ina) ~ 1 002, P(o) = 1/1 (a) = è, 

Ahora bien, en virtud de (8) obtenemos 


caldo) = Pa, (Ze>») = Po Qa- n<) - 
mm m 


exp talin (=a0) + 1 +03). 26) 


1 
(+ abd VIrn 


Suponiendo aquí a = —1 — 2V7, obtenemos las fórmulas con las que hemos calculado Jos 
valores de az(å:) en la tabla 2 (renglón inferior). 

Señalemos, para comparar, que el segundo miembro de (11) en nuestro caso se transforma 
en la expresión 


1 
exp (nin 04 + 1-0 + 21 — 047 — 
añ => (nin 9 + 201 — GaV — 2) er 


que puede ser obtenida de (26), sustituyendo allí œ = —1 — 2/V7 y eliminando, después del 
desarrollo en serie, los términos del orden de 1V7 y superiores. 

En el denominador (26), el primer factor igual a o(a)IMa)I = 1 + ad: = 1 ~ ô ~ 
= 281/Vñ se sustituye en(27) por o, = 1 — 02. Si z es próximo a 1, el error relativo, relaciona: 
do con el sumando de corrección —282/V1, puede resultar considerable. Por ejemplo, para 
f2 = 0,8, n = 100 obtenemos 20:/Vx = 0,16, o, = 1 — 6, = 0,2, o(a)IMa)) = 0,2 = 0,16 = 
= 0,04, así que el primer factor en (27) es $ veces (1) mayor que en (26). Este ejemplo muestra 
que en el caso de hipótesis semejantes, cuando el factor o1 en (11) es pequeño, las aproxima- 
ciones (11) o (27) deben wilizarse con mucho cuidado. 

Para calcular los valores verdaderos de ay(4.) hemos usado el hecho siguiente. Sea n(() 
el proceso de reconstrucción (véase [11)) para errar a saltos Xi, Xz, ..., O sea, 


« 
"O = mín f- PELD 
f] 


En este caso, si x € Pe.,, entonces, como hemos mostrado en el $4 del capítulo 13 
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111), el proceso E) = n(9) — 1 es, para £ > 0, el proceso de Poisson con parámetro 0, O sea, 


POM-1=%= ener. 


Ahora señalemos que { Èa 3 = (n() < n) y, por consiguiente, 
a 


. E 
. 
r (X>) -Der es 
mm tzo 

Por eso cuando £ = n + 2VA, s ez 
AN 

a yag LESI 
* 
cad) = Pa (2<) =1 re. 

mn tzo 


Precisamente estas igualdades fueron utilizadas para calcular los valores exactos de and), 
i=l, 2. 
Nótese que a la par con (28) también se pueden escribir otras fórmulas para la distribu- 


ción de Ý; xi, basadas en el hecho de que 2] x € Ti 
a m 


i 

5. Relación entre e) c.m.p. y la eficacia asintótica de ta evm. Utilizando los cálculos 
realizados y los resultados de los $$ 1 y 2, ahora podemos demostrar el teorema 2.25.3 de 
la eficacia asintótica de la evm. 9* en la clase X* de estimaciones asintóticamente centrales 
(la pertenencia de 6* @ R° ha sido establecida en el apartado (2.29.3). 

Demostración del teorema 2.25.3. Admitamos lo contrario, es decir, el hecho de que existe 
una estimación asintóticamente normal * tal que, para cualquier 01, 


lim Man(0* — 01)? = (0) < 17 (0) = lim Manb” — 05). 
Examinemos el problema de verificación de la hipótesis Hi = [X € Pa) frente a 


Ha = {X € Po, 0 =0, + un” “?) y construyamos para esto el criterio ô que tiene la forma 
siguiente: 


donde hemos tomado, para precisar, que w > 0. Entonces 


(8) = Pa (0% > 0 + 007) = Po, (E £ 


š 
m AS G 


A continuación, la pertenencia de 0* € K? significa que 
a) = <h + un?) = Pol" < 6) + 1/2. 
Examinemos ahora otro criterio áx(X) con la región crítica 
$-8>(+ Mn, 1>0, 
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que, como hemos establecido, será el ca.m.p, (véase (21)). En vista de que cuando es bastante 
pequeña y > 0, 
(o + YATE) < v/0(8), 
para este criterio, 
lim (69) = 1 — P((v + YATE) > 1 = Dvo), 
lim ca(do) = lim Ps(0” < 9 + v/V) > 1/2. 


Esto significa que a partir de cierto 7, el criterio 6 será mejor que el c.m.p. La contradic- 
ción obtenida demuestra el teorema. < 


$4. Verificación de las hipótesis compuestas. 
Cluses de criterios óptimos. 


1, Planteamiento del problema y conceptos principales. En los $51 y 2 
hemos examinado los problemas menos complejos de verificación de las 
hipótesis cuando estas últimas son simples. Sin embrago, a menudo las hi- 
pótesis sujetas a verificación tienen una naturaleza más compleja. En el 
caso paramétrico, por ejemplo, la hipótesis puede tener la forma {X € Po; 
09€ 01), donde O; es un subconjunto dado del conjunto O. Evidentemente, 
tal hipótesis ya no define de manera unívoca la distribución de la muestra. 

Llamaremos compuesta toda hipótesis H que no sea simple, 

Por ejemplo, las hipótesis {X € Bo .; o > 0}, [X € Bo, 1; œ 20) son 
compuestas, 

Posteriormente en este capítulo examinaremos siempre los problemas 
relacionados con la verificación de dos hipótesis que designaremos por #1 
y Hı. Además, en los párrafos inmediatos nos limitamos a estudiar el caso 
paramétrico X € Po, 0 € O. En este caso, las hipótesis A; se pueden escribir 
de la forma siguiente: 


H= {X€ Po; 6€£ 01), O/C O, ONO: = Y. 


Como los demás valores de 9 que no pertenecen a 9 U 62 no se exami- 
nan en general, entonces, sin limitar la generalidad, podemos considerar 
que O = 9/UO», y que Hz es una hipótesis adicional (o contraria) a Hi, 
así que la hipótesis Ha también puede ser escrita en forma de Ha = (Hi 
noes cierta). Al igual que en el $ 2, una de las hipótesis será llamada funda- 
mental (en este caso es Fh), y las hipótesis simples Hp = {X € Po), 0 € Oz 
se llamarán alternativas. 

La separación de una hipótesis fundamental entre todas las demás, a 
menudo refleja la actitud del investigador hacia el objeto de estudio. La 
hipótesis fundamental suele corresponder a cierta concepción, y la alterna- 
tiva, a las desviaciones de ésta, cuya presencia ha de ser demostrada o 
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rechazada. Por regla general sólo hay una o un pequeño número de hipóte- 
sis fundamentales y una gran cantidad de hipótesis alternativas. 

El procedimiento de admisión de las hipótesis se basa en el criterio esta- 
dístico. Como sólo examinamos dos hipótesis, entonces, al igual que en 
el $2, todo criterio (randomizado) ~ será unívocamente definido por la 
función medible x(x), 0 < r(x) < 1, la cual determina la probabilidad de 
aprobación r(X) de la hipótesis Hz para cada muestra X (la realización 
de la elección aleatoria con probabilidad (X) debe llevarse a cabo con 
ayuda de un dispositivo adicional). Al igual que en el $2, la función r(x) 
se llama crítica. Para el criterio no randomizado ô, la función t(x) = 5(x) 
sólo adopta dos valores: O y 1; la región M2 del espacio 2”, en la que 
5(x) = 1 (región de admisión de H2), en este caso se denomina región crítica 
y a menudo se identifica con el criterio ô. 

Definición 1. Se llama dimensión o probabilidad del error de primer 
género del criterio z el número 


a(r) = sup Mer(X). 
pS 


Es evidente que para los criterios no randomizados, 
(0) = sup Po (X € 02). 
KOs 


Esta es la máxima probabilidad (respecto a 0 € O1) de rechazar la hipótesis 
H cuando ella es verdaderamente cierta. Por lo general, para facilitar las 
búsquedas de los criterios óptimos se examinan los criterios que satisfa- 
cen la condición 


or) =8 (o ar) < e). 


Designemos por K, la clase de tales criterios. 

Llamaremos nivel (de significación)” del criterio w el número 1 — 
-alr = 1-e. 

La utilización del criterio ô € K., estadísticamente significa que en una 
larga serie de experimentos para verificar la hipótesis H, con ayuda del 
criterio 5 € K., no nos equivocaremos más a menudo que en una porción 
de casos £, si realmente era cierta la hipótesis H1. 


“ Con frecuencia se llama nivel de significación el número g, y no el 1 — e, Pero esto 

jes es natural considerar que cuando más alto sea el nivel de significación, 
ificativo” será el criterio. Partiendo precisamente de estas consideraciones he- 
mos definido el nivel de significación (o de confianza) para los intervalos confidenciales. Co- 
mo entre los criterios estadísticos y los intervalos confidenciales existe una relación directa 
(véase el $ 8), no sería razonable cambiar esta terminología (al pasar a los criterios) por una 
contraria. 
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La elección del nivel de significación del criterio es, en gran medida, 
arbitraria. En calidad de e se elige, de ordinario, uno de los valores estándar, 
tales como 0,005, 0,01, 0,05, 0,1. Esta estandarización tiene la ventaja de 
que permite reducir el volumen de las tablas que el estadista utiliza en su 
trabajo. No hay ninguna otra causa especial para escoger precisamente estos 
valores. Eligiendo el nivel de significación del criterio 7, es necesario prestar 
atención a la potencia del criterio 

Br = Mer(X), 0602. 
Si ésta resulta demasiado pequeña, conviene, tal vez, sustituir el nivel 1 — € 
por uno menor. 

Nuestra actitud hacia la hipótesis antes de realizar el experimento es 
una circunstancia importante que puede influir en la elección del nivel de 
significación. Si creemos firmemente en la veracidad de la hipótesis (la pro- 
babilidad a priori Q(H) en el planteamiento bayesiano del problema es 
grande), se necesitarán pruebas convincentes contra ella para que renun- 
ciemos a nuestra seguridad. En estas condiciones hacen falta criterios de 
alto nivel, y e se elige muy pequeño (entonces, la toma de un valor pertene- 
ciente a Qz será demasiado inverosímil si es cierta #1). 

Aquí se utiliza la misma concepción que hemos expuesto al construir 
los intervalos confidenciales. La misma consiste en lo siguiente: si la proba- 
bilidad e de cierto suceso A es pequeña, consideraremos prácticamente im- 
posible el hecho de que este suceso ocurra al realizar una sola prueba. 

Entre algunos especialistas de estadística matemática también existe 
otro punto de vista, el cual radica en que no hay necesidad de asignar un 
nivel de significación fijo y que para su elección preliminar no hay una 
regla razonable. Ellos consideran la verificación de las hipótesis no como 
un procedimiento que conduce obligatoriamente a la aprobación de una 
de dos hipótesis, sino como cierto proceso que se desarrolla en la conciencia 
del investigador y que determina la actitud de éste hacia las hipótesis. Desde 
este punto de vista, al número de significación registrado se le puede ante- 
poner el nivel “realmente alcanzable” que se determina del modo siguiente. 
Examinemos la familia de criterios no randomizados ô de nivel 1 — £ cuan- 
do e recorre los valores del pes (0, 1), y designemos por Q, , la región 
crítica ô, suponiendo que Q, a Cuando £z < Er. 

Definición 2. Llámase Br po De alcanzable de la familia de crite- 
rios ô en la muestra X, la variable aleatoria 1 — £(X), donde 

200 = inf (e; XEN,,). 

Cuanto mayor es 1 — e(X) tanto más fuertemente testimonia la muestra 
contra la hipótesis Hi. 

El valor e(X) da la posibilidad de aceptar o rechazar la hipótesis para 
cualquiera que sea el nivel 1 — e dado de antemano, mediante la simple 
comparación de e(X) con e. 
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Ejemplo 1. En el párrafo anterior hemos construido el c.m.p. para veri- 
ficar la hipótesis A, = {X € TP1,1) frente a la hipótesis Ha = {X € Ti/,1). 
Este criterio tiene la siguiente región crítica; 


w= fee: Èa- n>a). 


Supongamos que para la muestra X de volumen n = 10 ha resultado 
z xy = 18, Como para la hipótesis Hı 2 x€ Pin y Tilla, b) = 
fo 


= Han(Qo, 2b)), entonces Pi, 10((18, 00)) = "HG6, ©)) = 0,0154 (véanse 
las tablas IJI ó [8], y el nivel que en este caso se alcanza realmente será 
iguala 1 — e(X) = 1 — 0,0154 = 0,9846, así que la hipótesis Hı será recha- 
zada por el cm.p. de nivel 1 — £ = 0,98 y no será rechazada por el c.m.p. 
de nivel 1 — e = 0,99. 

2. Criterios uniformemente más potentes. Volvamos a examinar los cri- 
terios randomizados arbitrarios = que hemos acordado designarlos por la 
función crítica x(x), x € 2” (La función r(x) también se puede llamar fun- 
ción estadística (randomizada) de decisión). 

Si existe una estadistica suficiente S(X), entonces es posible limitarse 
a los criterios r(X) que dependen de X sólo por la estadística suficiente 
S(X), o sea, por los criterios representables en la forma r(X) = p(S(X). 
Pues sabemos que toda la información sobre el parámetro desconocido está 
concentrada en S, y la utilización de otras estadísticas (otra información 
sobre la muestra X) no tiene sentido. 

Como ya hemos señalado, para determinar los criterios óptimos, se re- 
duce, de ordinario, el conjunto de criterios que se examinan, hasta la clase 
K de los criterios de nivel registrado. Entre ellos se puede tratar de hallar 
un criterio tal, para el que la potencia 


Br(0) = Mox (X) 


en la región O2 sea máxima (es decir, la probabilidad del error de segundo 
género 1 — Bx(9) debe ser mínima). Con otras palabras, ha de ser máxima 
la probabilidad de aceptar la hipótesis Ha cuando ésta es cierta. 

La función $.(0) = Mor(X) también suele llamarse función de potencia 
del criterio r. 

Definición 3. El criterio x° € K, se denomina criterio uniformemente 
más potente (cu.m.p.) en Ke, si para cualquier r € Ks 

Bx.(0) > Bx(0) para todos 0€0z. 5 


Claro está que cu.m.p. existe no siempre, ni mucho menos. Si tal criterio 
=° existiera, la función de potencia f..($) para él en el gráfico permanece- 
ría más alta que cualquier otra función 8.(6) en la región Oz a condición 
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de que ambas funciones no excedan el valor e en la región ©; (pues 
a(x) = sup Br(6)), así que Br.(9) es la envolvente de la familia (8.(0)) 
wo 


en la región Oz. 

Supongamos que O, = (01), Ma,r*(X) = e. Entonces el c.u.m.p. m° 
será, evidentemente, el cm.p. de nivel 1 — para verificar la hipótesis 
10 = 01] frente a la alternativa (9 = 62) con cualquier 6, € 92. Como cono- 
cemos la forma del c.m.p., de aquí surge el siguiente procedimiento natural 
de búsqueda del c.u.m.p.: lo encontraremos si resulta que en el problema 
antes planteado, acerca de la verificación de las hipótesis (8 = 01] y 
[0 = 02), el c.m.p. no depende de 02. 

También es cierto lo contrario: si el mp. de Ke para verificar la hipó- 
tesis {ð = 61] frente a {9 = 82}, 02 € Oz depende considerablemente de 0, 
esto significará que el cu.m.p. para verificar (0 = 8) frente a 0 € Oz no 
existe, 

Si la hipótesis Hz es simple (O consta de un solo punto 82), el concepto 
de c.u.m.p. pierde parcialmente su sentido y se transforma en concepto de 
c.m.p. ordinario, o sea, en un criterio para el que en la clase X, se maximi- 
za Mo,r(X). 

Definamos ahora los criterios bayesianos y minimax para comprobar 
las hipótesis compuestas. 

3. Criterios bayesianos. Al comprobar las hipótesis compuestas distin- 
guiremos dos enfoques bayesianos. 

a) Enfoque bayesiano completo. Consiste en la suposición de que las 
hipótesis Ho = {X € Po), 0 € O se escogen al azar, con una distribución 
a priori Q. Con otras palabras, en © = 0, U Oz se registra cierta o-álgebra 
de los subconjuntos ©, 6, € ©, O2 € &, y 0 se considera como variable ale- 
atoria en el espacio muestral (9, ©, Q). 

La distribución Q induce la distribución Q; en 9;, i = 1, 2 y las probabi- 
lidades q; = Q(0 € Oy), así que Q = 910; + 9202. La hipótesis de que 
0 € O; se elige al azar, con una distribución Qy, la designaremos por Ho,. 

Definición 4. El criterio rg se llama bayesiano si es un criterio bayesiano 
correspondiente a la distribución a priori (g1, q2) para verificar dos hipóte- 
sis simples Ho, y Ho, (véase el $ 1). 

b) Enfoque parcialmente bayesiano. Aquí se supone que han sido dadas 
las distribuciones a priori Q; en ©;, pero que faltan las probabilidades a 
priori qi, q2. En este caso se trata de la verificación de dos hipótesis simples 
Ho, y Ho. 

Designemos, como antes, 


K: = (mr sup Mer(X) < e] 
po 
K? 


y pongamos 


Ir: Mor% <e), 
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donde Mo, designa la esperanza matemática incondicional de la distribu- 
ción en ©; x 2”, engendrada por Q; y Po. 

Definición 5. El criterio o,o se llama bayesiano en K® si es el 
c.m.p. de nivel 1 — e para la verificación de dos hipótesis simples Hg, y 


lo. 

Si una de las hipótesis H; degenera en hipótesis simple (O, ó 2 unipun- 
tualmente), también degenerá la distribución respectiva. En este caso acor- 
taremos el índice en la designación ro,,o, y escribiremos rg, en vez de 
ro..0 si O = (02) unipuntualmente, 

La construcción de los criterios mo,.o, no presenta dificultades. Utili- 
zaremos estos criterios como medio auxiliar para construir los c.u.m.p. y 
los minimax. 

4. Criterios minimax, 

Definición 6. El criterio 7 para verificar Hı = {0 € 01) frente a Mz = 
= {8 € O2) se llama minimax en Ke (en K®) si 7 € Ke(T € K2), y para él 
se maximiza 


inf Mor(X) = inf 8x(0). 
Ko 1o 


Sería más correcto llamar este criterio maximín (se maximiza el míni- 
mo). Sin embargo, a pesar de todo utilizaremos el término único “mini- 
max”, ya que el mismo conserva su sentido aún cuando se trata no de la 
potencia, sino de las probabilidades de segundo género. 

Los criterios bayesianos y minimax se examinan más detalladamente 
en el §9. Los párrafos están dedicados a la aclaración de las condiciones 
en las que es posible construir los cu.m.p. 


$ 5. Criterios uniformemente más potentes 


En este párrafo examinaremos dos importantes casos particulares, refe- 
rentes al parámetro unidimensional € cuando se logra construir el cu.m.p. 
También obtendremos un resultado útil en cuanto a la construcción del 
emp. 

1. Alternativas unilaterales. Relación monótona de verosimilitud. Su- 
pongamos que la hipótesis fundamental A, consiste en que 9 < 01, y la 
hipótesis alternativa H2, en que 0 > 61. Llamaremos unilateral tal hipótesis 
Ha, a distinción, digamos, de la hipótesis H2 = (0 # 61) (adicional a Hı = 
{9 = 61), la cual es bilateral, puesto que admite desviaciones respecto a 
61 en ambas direcciones. 

Nuestra otra suposición consiste en lo siguiente. Supongamos que se 
cumple la condición (4o) y que existe una función T(x) tal, que para todos 
0, ĝo, 6 > Oo, la relación de verosimilitud 

L0 
Leo 


0 
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es una función no decreciente (o no creciente) de 7(x). En este caso se 
dice que la familia [Ps] tiene una relación de verosimilitud monótona. 

En vista de que T es una estadística suficiente, entonces f(x) = Y(T), 
0)h(o), y la condición enunciada corresponderá a la relación (7, 0/Y(T. 
61). Esta condición significa que para todos 9 > fo y para cualquier d > 0, 
la desigualdad f0()/f0,.(x) > d será resoluble en la forma T(x) > ca(0, 
bo, d) (o bien TŒ) > Cní0, bo, d). 

Por ejemplo, las familias (Pa,1) y [Bo,o:) tienen una relación de vero- 
similitud monótona, ya que 

P = op (le - aont -5 è - ad}, 


28-16-9538. 


Lo. 00 


y las desigualdades respectivas tendrán la forma (a > aw, ø > 0) 


> cala, ao, d) = 3 (a + 0) + y (TW =, 


Daciei Aa aa (r%- È). 


imi imi 
Muchas familias paramétricas del § 2.2 también tienen una relación de vero- 
similitud monótona. En lo sucesivo, para precisar, consideramos que (61) 
es una función no decreciente T(x). 

Teorema 1. Sea 0 un parámetro unidimensional y supongamos que | Pe) 
tiene una relación de verosimilitud monótona. Entonces 

1) En K, existe c.u.m.p. para verificar la hipótesis Hı = 10 < 01) fren- 
te a la alternativa Hz = {0 > 01), el cual tiene la forma siguiente: 


1, si TOD) ><, 
w= jp si TA =c, a) 
0 si TX) <e, 
donde c y p se deducen de la condición 
Mor OO = Pa (TOO > 0) + pPo(T(X) = Cc) = €. 6) 
2) La función de potencia B"(0) = Mer" (X) crece estrictamente en 0 
con todos 0 para los cuales B° (0) < 1. 
3) Con todos 80 el criterio (2) es el cu.m.p. en la clase Kg», Para veri- 
ficar la hipótesis H? = {9 < 8o} frente a H? = 10 > bo). 
4) Para cualquier 9 < 0,, nuestro criterio minimiza B(0) = Mer (X) en 
la clase Ke. 
21—8030 
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Demostración. Examinemos primeramente las hipótesis simples {8 = 
= 01) y [0 = 02), 02 > 01. El c.m.p. para verificar estas hipótesis en la clase 
de criterios v, para los cuales Ma r(X) = £, tiene, según el teorema 2.1, 
Ja forma (2), ya que la desigualdad Z(X) > d equivale a T(X) > c (en caso 
de la debida correspondencia entre c y d), donde las constantes c y p se 
deducen de (3) (compárese con (2.3). Como los números ¢ y p de la 
ecuación de forma (3) se determinan de un modo único, entonces también 
obtenemos que el criterio (2) será el c.m.p. en Kg., para verificar la hipó- 
tesis [0 = 00) frente a (9 = 02), 62 > 00. De aquí y del teorema 2.1 (véase 
(2.4) resulta que £*(0:) > B° (8o). 
Como 8°(8) no decrece, entonces 


Mer*(X) <e cuando 9<. (4) 


La clase K, de los criterios w que satisfacen (4) está presente en la clase 
(r: Ma, r(X) = £). En vista de que el criterio (2) maximiza 8(02) en esta 
última clase, también maximizará £(0,) en K.. Queda señalar que el cri 
rio (2) no depende de ningún modo de 62 y, por consiguiente, las conclu- 
siones sacadas son válidas para cualquier 0z > 01. Aquí pues, han sido 
demostradas las primeras tres afirmaciones del teorema. 

La cuarta afirmación se deduce de las tres primeras si éstas se aplican 
al problema de la verificación de la hipótesis Hý = (0 > 01) frente a H; = 
= (0 < 01), para la cual el cu.m.p. en la clase (M(): MTI) < 1 - e, 
0> 01) tendrá la forma II*(X) = 1 — =°(X), y la función 1 — 8°(0) = 
= MalI*(X) en máxima función de potencia cuando 0 < ĝi. < 

Una importante clase de familias de distribuciones que admiten la rela- 
ción de verosimilitud monótona es formada por la familia exponencial mo- 


noparamétrica (véase el $2.15) cuando la densidad f(x) es representable 
en la forma 


Sole) = ht) exp Lal) U) + V()). (5 
En efecto, en este caso 
qe = xp [a = al00) Py UG) + nO) ve) 


m1 
y la relación de verosimilitud dependerá monótonamente de T(x) = 


= J; U(x) si a(9) — a(60) conserva el signo en todos 9, 00, © > bo. 
imi 


Corolario 1. Supongamos que fe(x) tiene la forma (5), donde a (0) es 
una función monótona. Entonces existe el c.u.m.p. 1? en la clase K, para 
la verificación de la hipótesis Hı = {0 < 01} frente a Hi = {0 > 01). Si 
a (8) crece, este criterio tiene la forma (2) y (3). Si a (0) decrece, las desigual- 
dades en (2) y (3) se sustituyen por las contrarias. 
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Nótese que si se verifica la alternativa bilateral, por ejemplo, la hipótesis 
Hi = (0 =0,) frente a Hz = [8 # 01), entonces el cu.m.p. para la familia 
exponencial (5) ya no existe. En efecto, admitamos, para abreviar, que a(0) 


crece y que Pedistribución de 7(X) = 2) U(x) para todos 0 es absoluta- 
da 


mente continua. Entonces, de acuerdo con el teorema 2.1, el c.m.p. para 
la verificación de (0 = 01) frente a {0 = 02) será no randomizado y tendrá 
la región crítica T(X) > c si 02 > 01. No obstante, si 02 < 61, la región críti- 
ca tendrá la forma T(X) < c. Vemos que la potencia máxima en el punto 
0, se alcanzará con criterios muy diferentes en función del signo de diferen- 
cia de 0, — 01. Del teorema 1 se deduce que si tomamos cualquiera de estos 
criterios, por ejemplo, aquél para el cual (X) = 1 cuando 7(X) > c, en- 
tonces éste será el cu.m.p. para todos 02 > 6, y a ciencia cierta no será 
tal para 02 < 01. 

Ya hemos señalado que la situación de dos hipótesis simples en el teore- 
ma 2.1. del c.m.p. es, en cierto sentido, simétrica (el c.m.p. minimiza la 
probabilidad del error de segundo género a2(1) si ha sido registrado el valor 
de œı(x) y, al contrario, minimiza a1(r) si se ha registrado a2(1). En el 
planteamiento del problema de la verificación de las hipótesis compuestas 
no existe tal simetría. Con esta circunstancia está vinculado el siguiente 
hecho interesante. Acabamos de ver que para una familia exponencial no 
existe el cu.m.p. destinado a verificar la hipótesis Hı = (0 = 01) frente a 
Hı = (0% 01). De las investigaciones realizadas es fácil comprender que 
no existe tampoco el c.u.m.p. para la verificación de la hipótesis (0, < 9 < 
< 0) frente a la alternativa 10 ¢ (0182)). No obstante, si examinamos ahora, 
en calidad de hipótesis fundamental Hı, la Hı = (0 4(01, 02)), y en calidad 
de alternativa, la hipótesis H2 = (0 € (61, 02)), entonces el cu.m.p. en K, 
ya existirá. Así pues, vamos examinar ahora la segunda posibilidad cuando 
se logra construir el c.u.m.p. 

2. Hipótesis fundamental bilateral. Familia exponencial. 


Teorema 2. Supongamos que fo(x) se define por la igualdad (5) y que 
se verifica la hipótesis Hı = 10 (01, 023), 01 < 02, frente a la alternativa 
Ha = (04(01, 02). En este caso si la función a(9) es monótona, 

1) en la clase K, = įm: sup Mer(X) < €) existe un cu.m.p. T° que 
P eee 
tiene la forma 


1, si ci < T) <a, 
e= jp, si TW ac i=l, 2, © 
0, si TO)éE lc, cal, 
donde TG) = Y) U(x) y las constantes ci, pi se deducen de las condiciones 
Ga] 


Me, 1° (X) = Mor (X) = €. y) 
a 
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2) Este criterio maximiza la función de potencia (8) = Mer(X) a con- 
dición de (T) dentro del intervalo (81, 63), y la minimiza fuera de este inter- 
valo (véase la fig. 4). e 

3) Cuando 0 < e < 1, la función 8° (8) tiene el máximo en cierto punto 
Bo € (01, 02) y decrece estrictamente al alejarse 8 de o a la derecha o a la 
izquierda. Además excluimos el caso cuando la distribución de T(X) está 
concentrada en dos puntos, o sea, cuando existen tales tı, t2 que 


PATO = f) + PATA) = 12) =1 para todos 0. (6) 
En las investigaciones que se realizan también es útil la afirmación si- 
guiente. 


Fig. 4. Forma de la función de potencia 499) = Mex’ (Y) y 8(0) = Mox(X) para el criterio 
arbitrario 7 € K. 


Lema 1. Las ecuaciones (7) para O < e < 1 son siempre resolubles con 
respecto a Ci y pi, i= 1, 2. 

La demostración de este lema se dará más tarde. 

Demostración del teorema 2. Escribamos la función de verosimilitud 
en la forma 


S = (AOT), 0) 


donde, supondremos, con el fin de precisar, que a(0) crece estrictamente, 

Examinemos el siguiente planteamiento bayesiano del problema. Admi- 
tamos que se verifica la hipótesis fundamental “mixta” A, la cual consiste 
en que {9 = 01) con probabilidad q, y (9 = 02] con probabilidad 1 — q 
frente a la alternativa Ho = (0 = 00), 00 € (01, 02). Supongamos después, 
que las probabilidades a priori de las hipótesis Æ y Ho son iguales a r y 
1 — r, respectivamente, Como las hipótesis H y Ho determinan por comple- 
to la distribución de la muestra, ellas pueden considerarse simples y pode- 
mos hacer uso de los resultados del $ 2. En este caso el criterio bayesiano 
(designémoslo por x°) tendrá la forma 


. PaO 
i RO. RAR Tr 


N= p, si ROO= E; 


o si R< 


(10) 
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En virtud de (9) la desigualdad R(X) > 7/(1 — r) es equivalente a la 
desigualdad 


a Y 4000 y q — ECO Y eletto = 00 < i-t. mj 
F 


D o) 
Como Ho — al80) < 0, a(02) ~ a(o) > O, aquí el primer miembro es una 
función convexa de 7. Esto quiere decir que (11) se puede escribir en la 
forma 


a<T<a, 


donde & = ci(g, r); los números cı < cz recorren, al variar q y 7, todos los 
valores posibles. La función p(X) en (10) se supone igual a p; si 7(X) = 1 
y Pa si TX) = c. 

Según el lema 1, habrá cı, è = 1, 2 (o bien, que es lo mismo, g y 7) 
y pı tales que (7) sea cumplida. Mostremos ahora, que la función r*(X) 
definida en (10) o, que es lo mismo, en 6, poseerá todas las propiedades 
enunciadas en el teorema 2. Lo dicho significa que ahora consideramos 
w° simultáneamente como función de decisión para la verificación de Hi 
frente a Az. Como el criterio 1” es bayesiano (para la verificación de H 
frente a Ho), entonces, para cualquier otro criterio 7, 


rlgMo,x? + (1 — )Mo,r*] + (1 — 1)Mo(l — 2°) < 
< rlqMo,7 + (1 — q)Mo,r] + (1 — r)Mo,(1 — 2). (12) 
Por consiguiente, si el criterio 7, a la par con 7°, satisface (7), entonces 
Mor" > Mar. 
Esto significa que en cada punto interior 64 € (81, 02), el criterio 1? maximi- 
za la función de potencia £(0) = Mor en la clase de criterios m que satisface 
(7). Pero las condiciones (7) destacan una clase de criterios que es más 
amplia que Xe. Por lo tanto, 1” también maximizará £(0) en K.. En vista 
de que el criterio =° no depende de 60, el mismo será el c.u.m.p. en K. 
También cabe señalar que, en virtud del teorema 2.1, 
B*(00) = Mar? >€ 
y aquí la igualdad sólo es posible en el caso de que 
UO) + DÍ Sa. a3) 


4” casi por doquier. 

De un modo absolutamente análogo podemos convencernos, con ayuda 
de (12), de que 1” minimizará Mo,r para Mo,x, Me,™ registradas (aquí 
utilizamos las mismas consideraciones que en la demostración de los teore- 
mas del $1). 
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Mostremos ahora, que x° minimiza £(0) fuera de (01, 62). Sea 0° < 01. 
Sustituyamos en las investigaciones precedentes, los tres puntos (01, 90, 81) 
por los tres puntos (9%, 81, 02) y notemos que para el nuevo problema, el 
criterio 7° volverá a ser bayesiano (pues su forma no depende de la elección 
de los puntos 6;, ¡=0, 1, 2) en la clase de criterios x para los cuales 
Mpt = 8°(8°), Mo, = £. Pero, según la observación hecha anterior- 
mente, r° minimizará M¿.r para Ms,7 y Mo,r registradas. Las primeras 
dos afirmaciones del teorema quedan demostradas. 

Demostremos la tercera afirmación. Nótese previamente que, utilizando 
la sustitución de las variables de integración, podemos escribir 


P(T €A) = c(8) COTA dx) = 0) | evdo, 
Le TEA tiA 


donde la medida » se define por la relación 
»(A) = A hoy" (dx). 
yA) 


E 
Esto quiere decir que la distribución T respecto a la medida » tiene densidad 
(véase también el lema 2.15.1) go(£) = c(0)e*%! y, por consiguiente, también 
pertenece a la familia exponencial. Luego, en virtud de la monotonía de 
a(6) se puede introducir un nuevo parámetro 8 = a(0) sin modificar absolu- 
tamente el problema y sus condiciones. Por consiguiente, podemos conside- 
rar, sin limitar la generalidad, que a(9) = 0. En este caso las funciones 


cs: 
c(0) = [irran y 8° (0) = Mor" (X) serán, evidentemente, continuas. 
Admitamos ahorá que la afirmación del teorema acerca del carácter del 


comportamiento de 8°(8) no es cierta. Entonces habrá tres puntos 
0" < 60” <0” para los cuales 


B*(0") = B° (07) = 80”) = a € (0, 1). (14) 


Hemos visto que =° maximiza £(0”) para las condiciones £(9”) = 
= B(0”) = a, con la particularidad de que si no se cumple la condición 
que tiene la forma (13), entonces 8%(9”) > a. Pero en nuestro caso la igual- 
dad (13) quiere decir que 


E ot E o ETET: er 


v-casi por doquier. En virtud de la convexidad del primer miembro respecto 
a T, esta igualdad es posible no más que para dos valores de T. Por lo tanto, 
si (8) se excluye, entonces 8%(9") > 8°(0) = a, y (14) es imposible. < 


4 5. CRITERIOS UNIFORMEMENTE MÁS POTENTES 327 


La demostración del lema 1 se llevará a efecto suponiendo simplemente 
que la distribución 7(X) es continua, o sea, que Po(T = c) = 0 para todos 
0 y c. Esto nos liberará de complicaciones poco importantes. En este caso, 
en virtud de las observaciones hechas al final de la demostración del teore- 
ma 2, podemos escribir 

A A 
Mor*(X) = PATE (ci, D) = | gstr(do) = (0) | eMv(an. 
Esta será una función continua de 8, cı, cx. 

Designemos por c+ el valor de e para el cual Pa (T < c+) = 1 — e. 

Entonces, en (— œ, c+) estará definida una función d(c) tal, que 


a 
Pa, (TE (c, dí) = P gntrtao 8. 


Naturalmente que d(c) es una función continua creciente. 
Demostraremos la afirmación requerida si nos convencemos de que la 
función 


do 
yc) = Po T € (c, d(c)) = entovido 

crece continuamente, Y(— 00) < e, Y(c+) > £. En este caso existirá un va- 

lor de co tal, que y(co) = € y, por lo tanto Palco, d(co)) = &, ¡=1, 2. 


La continuidad de y(c) es evidente. Demostremos ahora la monotonía. 
Escribamos y(c) en la forma 


ae) 
Yo) = | ga Ordi), (15) 


donde r(f) es la densidad de la P»-distribución de 7 respecto a la 
Po,distribución: 


ro = LA eteo, 


Supongamos, para precisar, que A es tal, que c + A < d(c). En este ca- 
norii era desa) 
| eard = | gotvdn, 16) 
entonces E + 


deso era 
ver a-Y)= | gardh- | gord > 
é è 

> Irídíc) — ríc+ AA > 0, 
donde A es el valor general de la integral (16). 
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Ahora nos convencemos de que Y(— 00) < £. Designemos por fo la solu- 
ción de la ecuación r(f) = 1. Si d(—<0) < fo, entonces r(1) < 1 en el interva- 
lo (— oo, d(—00)), y la igualdad requerida es, en virtud de (15), evidente. 
Si d(— œ) > fo, entonces, de un modo análogo obtenemos 


Y(—0) = 1 — Pal T E(d(- 00), 00)) < 
< 1 = Po (Te (d(- 00), 00)) = Po(TE(—00, d(— 00) = e. 


Exactamente igual se establece que Y(c+)>e€. < 

Observación 1. Le dejamos al lector que el mismo se convenza de que 
para 0, < 0, la afirmación del teorema 2 y todas las investigaciones realiza- 
das serán válidas si sustituimos el intervalo (01, 62) por el segmento [01, 
01], o sea, si verificamos la hipótesis Æ: = (0 € [01, 021) frente a H2 = [0€ 
€l01, 021). 

Observación 2. La exigencia del carácter exponencial de la familia (Po), 
como se deduce de la demostración del teorema, puede ser debilitada hasta 
la condición de convexidad de la relación 


eA P0 
a A 7] 


con respecto a cierta estadística 7 (compárese con (10) y (11). 

Observación 3. Prestemos atención una vez más en que si la hipótesis 
principal fuera H = (0 € (0,, 62), y la alternativa Hı = (0 € (01, 02)), en- 
tonces, el c.u.m.p. no existiría, ya que en este caso, los criterios “unilatera- 
les” que tienen la forma T > co T < c para las alternativas 0 > 02 y 0 < 61, 
respectivamente, resultarían más potentes que el criterio de forma T ¢ (c1, 
c2). Por ejemplo, para las alternativas 0 > 62 existirá el cu.m.p. de forma 
T>c, y la condición x € K¿ conducirá a la única limitación Mo,r < £ 
(véanse las observaciones al final del punto 2). 

No obstante, resultará que si la clase K, se reduce un poco adicional- 
mente, procediendo de un modo natural (véanse los $$ 6 y 7), entonces 
el cu.m,p. también existirá en este problema. 

3. Otro enfoque de los problemas sujetos a examen. La esencia matemá- 
tica de la afirmación principal del teorema 2, así como de los teoremas 
en los $4 1 y 2, es muy simple y merece la pena que hablemos de ella espe- 
cialmente. Por ejemplo, en el teorema 2, la misma consiste en el siguiente 
problema variacional. En la clase de funciones 7 que satisfacen las condi- 
ciones 


MO =e, 1=1,2 
buscamos el elemento «° para el cual se maximiza 
faou" (dx). 
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La siguiente afirmación suele llamarse generalización del lema funda- 
mental de Neumann — Pearson. 

Lema 2. Sean fi, ..., fm+1 las funciones reales definidas en 2" e in- 
tegrables respecto a la medida u”. Supongamos que las funciones críticas 
x son tales, que 

JEA u" (dx) =ë, i=l,... m. a7) 


Entonces, el elemento x°, en el que [CH +10)u" (dx) alcanza el máximo, 
tiene la forma 


1, si Sasi > EAU, 


m) = A 

IES pa khi) 

donde kı, ..., km se determinan de las condiciones (17). 
Demostración. Designemos Fi(w) = [AEDACIA (dx), Pki y 

+...» Mm +1. El elemento r que satisface las condiciones Fi(w) = €,, i = 
l,..., m, maximiza Fm+i(x) si y sólo si maximiza Fm+1(1) — 


A 
- Y KuFi(r) para cualesquiera kı, ... ., Km (pues el valor de la suma aquí 
a 


está registrado). Por consiguiente, es suficiente que m maximice 


J (naco - E ko) rones. 
Pero esta expresión se vuelve máxima si se supone que r(x) = 1 allí donde 
Smn100 — $ KO > 0, y OÒ = O alí donde esta expresión es negati- 
va. Las constantes k, de las cuales depende este x, así como los valores 
“libres” de x en el conjunto fa. 1) = P3 roo]. deben escogerse de 


modo que se cumpla (17). < 

4. Enfoque bayesiano y distribuciones a priori menos favorables al cons- 
truir el c.m.p. y el c.u.m.p. El lema 2 aclara la esencia matemática de las 
construcciones que hemos realizado en este párrafo. En el apartado presen- 
te también se tratará de la esencia de estas investigaciones, pero desde un 
punto de vista algo diferente. El hecho consiste en que al demostrar el teore- 
ma 2 hemos utilizado, implícitamente, el enfoque relacionado con la cons- 
trucción de los criterios minimax a base de los criterios bayesianos 
(compárese con el teorema 1.2). Este enfoque se examina más detallada- 
mente en la exposición sucesiva. Aquí obtendremos una afirmación general, 
útil para construir el cu.m.p. en el caso general, y explicaremos su relación 
con el enfoque minimax. 
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Supongamos que se verifica la hipótesis fundamental H; = (0€01) 
frente a la alternativa simple Hz = (8 = 02), 62 401. En calidad de Ha aquí 
también se puede tomar la alternativa arbitraria (X € G), donde G tiene 
una densidad g respecto a a y no está de ningún modo relacionada con 
la familia (Po). El problema consiste en determinar el cm.p. de nivel 
1 — e para verificar H, frente a H2. Con otras palabras, es necesario hallar 
la función r de Ke, 


Ko= (mm sup Mez(X) < €] (18) 


que minimiza $(0,) = Mo,r(X). En las investigaciones precedentes hemos 
observado varias veces cierta dualidad en el planteamiento del problema: 
Ja maximización de la potencia, al ser registrada la probabilidad del error 
de primer género, equivale a la minimización de este último al ser registrada 
la potencia. Pero con tal inversión llegamos, en nuestra tarea, a la cuestión 
de minimización (18), que es precisamente el problema de construcción del 
criterio minimax (este problema se examina más detalladamente en el $9). 
Ello explica, en cierta medida, la semejanza de la afirmación (que se de- 
mostrará más abajo) con el teorema 1.2. 

Así pues, examinemos el planteamiento parcialmente bayesiano del 
problema, en virtud del cual el parámetro 0 en el conjunto ©; se elige al 
azar, con una distribución Qı. En este caso, la hipótesis compuesta H se 
sustituye por la hipótesis simple Ho,, según la cual la densidad de X se 
define como el valor promediado respecto a la medida Q1: 


Sal) = l faQ (dð). 


Para verificar Hg, frente a Hz en la clase K® = (x: Mor(X) < £} de 
los criterios de nivel 1 — e existe el cm.p. ro, que tiene la forma (ro, es 
el criterio roo, en las designaciones del $ 4, donde Q es la distribución 
degenerada en el punto 02): 

L si g0 > fot), 
a) = 
a O od 
(aquí g(x) = falx) en el caso paramétrico). 

Teorema 3, Supongamos que existe tal distribución Qı, concentrada en 
el subconjunto Of C Oı(Qı(9F) = 1), para la cual 

1) To, EKS 20) 

2) Moro (X) = const = e a Moro (X) (21) 
para todos 8€ 0?. 


Entonces el criterio xo, € K. es precisamente el c.m.p. para la verifica- 
ción de Hi frente a Ha. 


(19) 
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Demostración. Comprobemos primeramente la pertenencia de 
ro, €K. En virtud de las condiciones del teorema, 


sup Moro (X) = | Moro (XQ: (d8) = Moo (X) < e. 22) 
4 er 


Sea ahora m cualquier otro criterio de K., o sea, el criterio de nivel 
1 — & para verificar H; frente a Hz. Entonces 


Mar (0 = [TO fo 04" (dx) = J Mar) (d0) < e 


y por lo tanto, x € K?:. Pero entonces, en virtud de la definición de 7o, 
Ms, to (X) > Mo,r(X), 
que es lo que se necesitaba demostrar. < 
La distribución Q; que figura en el teorema se llama distribución menos 
favorable. Esto está relacionado con la circunstancia siguiente. La magni- 
tud Bo,(02) = Mo,ro,(X) es el mayor valor de potencia que puede ser al- 


canzado en K¿ con la distribución “a priori” Q, en 6,. Si tomamos 
ahora cualquier otra distribución Q’ en ©, obtenemos 


Bo (0) > Boha), Balón = inf Bo- (2) 


{esto es precisamente el sentido del término “la peor distribución”). En 
efecto, en virtud de (22) xo, pertenece a Ke y, por lo tanto, a KẸ’. Esto 
quiere decir que su potencia £o, (02) = Me, ro. (X) no superará la potencia 
del cm.p. en KẸ’ que, por definición, es igual a Bo (02). 

Ahora, con ayuda del teorema 3 podríamos demostrar los teoremas 1 
y2. El conjunto OP, en el que está concentrada la distribución menos favo- 
fable, en los teoremas 1 y 2 consta de un solo (6,) y de los puntos (0,, 
da), respectivamente. Las condiciones (20) y (21) se transforman, respectiva- 
mente, en condiciones (3) y (7). 

Análogamente ha de utilizarse el teorema 3 para construir el cu.m.p. 
en otros casos: si el criterio construido mo, no depende de 0, € O», enton- 
ces él será el cu.m.p. para verificar Hı = (0 € 01) frente a Hz = {0 € 02) 
en la clase Ko. 

La distribución menos favorable Q,, que satisface las condiciones del 
teorema 3, existe para suposiciones muy amplias que suelen cumplirse en 
los problemas reales. Es suficiente exigir la compacticidad de ©; y la conti- 
miidad de fo(x) respecto a O para x c.d. (véase [57] y los capítulos poste- 
riores). 

La investigación ulterior de las relaciones entre los enfoques bayesiano 
y minimax véase en el § 9. 
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$ 6*. Criterios no desplazados 


Eneste párrafo y en el siguiente utilizaremos los principios de no despla- 
zamiento y de invariación para la reducción natural de la clase de criterios 
que se examinan. El objetivo de tal reducción consiste en determinar los 
criterios óptimos. 

1, Definiciones y c.u.m.p. no desplazados. Al igual que en el párrafo 
anterior, examinaremos la verificación de la hipótesis compuesta Hı = 
= (0601) frente a M = (0€ 02), basándonos en la muestra X € Po, 
0€8 = 0,/U8). Examinemos primero los criterios x de la clase K, = 
= (mi sup Mor < e). 


Si, por ejemplo, O, comprende un solo punto 0,, Mo,T = £, entonces 
e es la probabilidad de que se rechace Hı cuando H; es cierta. La exigencia 
natural respecto al criterio x consiste en que la probabilidad de rechazar 
Hi, cuando H; no es cierta, ha de ser mayor que e. Si no es así, entonces 
habrá alternativas con las que la aceptación de H, será más probable que 
en los casos cuando Hi, es cierta. Tal situación es indeseable. Llegamos a 
la necesidad de destacar la siguiente clase importante de criterios. 

Definición 1. El criterio x se llama no desplazado si para él 


inf Mer(x) > sup Mex(X). 10) 
Ko 0, 
Ahora bien, el criterio w €K, (para el cual sup Mor = £) no esta- 
Ko 


ría desplazado si Bx(0) > e cuando 0 € O». La clase de criterios no desplaza- 
dos de nivel 1 — £ se designa por Ka. 

El criterio unilateral con región crítica T > c (o T < c) para familias 
exponenciales, mencionado en el párrafo anterior, no puede permanecer 
sin desplazamiento al verificar Hı = {X € Po,) frente a Hi = (X € Po, 
0% 01), ya que aquí O, = (0: 0 % 01), Mor < e para 0 < O1 si Mor = € 
(véase el teorema 5.1). 

Al contrario, los cu.m.p., si existen, con la necesidad pueden no estar 
desplazados, ya que para ellos la potencia £(9), cuando 9 € O», no puede 
ser menor que la potencia del criterio r(X) = e. 

El principio de no desplazamiento” reviste interés especial, puesto que 
permite reducir naturalmente la clase de criterios. Esto nos permite cons- 


truir los c.u.m.p. en las clases X, cuando los c.u.m.p. no existen en la clase 
Ke. 


© El término “no desplazamiento” también se utilizó con arreglo a las estimaciones, Des- 
de cierto punto de vista la propiedad de no desplazamiento de la estimación es análoga a 
la propiedad de no desplazamiento del criterio: si la estimación 6" no está desplazada, entonces 
Me,” > Go y habrá otros valores del parámetro 9 »* 6 con los cuales el valor medio Mp0" 
será igual a 60. 


4 6. CRITERIOS NO DESPLAZADOS 333 


Como veremos, esto se refiere, en particular, al problema de verificación 
de la hipótesis Æi = {9 € [61, 02], 61 < 6», frente a la alternativa bilateral 
Hı = (04101, 021) (compárese con el apartado 2 del $ 5). 

La determinación de los criterios no desplazados y uniformemente más 
potentes puede ser bastante reducida al uso de los procedimientos ya emple- 
ados, cuya esencia se expone en el lema 5.2. En este caso puede ser útil 
la siguiente afirmación. 

Supongamos que existe una frontera común no vacía I de los conjuntos 
O, y O» de R*: 


T = 98,30, 


(09, designa la frontera de ©;), o sea, un conjunto de puntos límites para 
61 y Oz. Supongamos además, que para todos ~ €K, 


Bx(0) = Mor(X) = € cuando todos 0€T. 8) 


Es evidente que esta propiedad siempre se cumplirá si 8.(9) depende 
continuamente de 9 para cualquier criterio x de K.. 
Como 


Bx(0) = [TOS 01 "(da), 0< rA) <1, 


entonces la continuidad de $.(9) tendrá lugar si la función f.(x) es continua 
respecto a 0 para c.t. u” de x. Esto se deduce del corolario 1 del Suplemento 
vL 

Designemos por Ke la clase de todos los criterios ~ que satisfacen (2). 

Lema 1. Supongamos que K, C Ke (o sea, que se cumple (2)). En este 
caso, si % es el cu.m.p. en Ke Ke, entonces ž es el cu.m.p. en Ke. 

Demostración. Es suficiente convencerse que *€X, y que K, C 
CcX.MKo. La segunda de estas relaciones se desprende de la suposición 
de que Ke C. Ke. La primera se deduce del hecho de que el criterio m = e 
partenece a K¿MX. y, por lo tanto, sal. Mer) > inf Mor =€. <a 


Ahora bien, el lema 1 permite reducir la búsqueda de los criterios 
no desplazados y uniformemente más potentes, a la búsqueda de los 
cu.m.p. ordinarios, pero al disponer de condiciones de frontera (2). Si el 
número de puntos de la frontera T es finito, resultaremos en las condiciones 
del lema 5.2 donde nos quedará verificar que la función crítica óptima obte- 
nida w no dependa del valor 6 € O, para el cual se ha maximizado la fun- 
cional Max(X). Esto significará precisamente la potencia uniforme 
máxima. 

Nótese ahora la siguiente circunstancia, relacionada con la degeneración 
de las condiciones (2), la cual se aclara fácilmente para el caso unidimen- 
sional. Si 91 = [61, 61] y 2 es el complemento de 81, entonces las condi- 
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ciones (2) serán dos ecuaciones Ma,r(X) = e, i = 1, 2. Sin embargo, en 
el caso límite 9, = 02, estas ecuaciones se transforman en una sola. Pero 
en virtud del no desplazamiento del criterio x, su potencia 8x(9) debe alcan- 
zar su mínimo en el punto 6, (véase (1). Por consiguiente, si Bx(0) es deri- 
vable, entonces, el papel de las ecuaciones (2) en el caso de las 0, = 62 lo 
desempeñarán las igualdades 

Bri01) = €, Bx(01) = 0. (0) 


Las condiciones de derivabilidad de [J,Q94(dx) y, por consiguiente, 


también de (0) = Mex(X), son aclaradas en el Suplemento VI, Si se 
cumplen estas condiciones, entonces 


B0) = [NICO "(de = 
= (aL Œ, DIO) = Mer OL '(X, 0. 


Esto significa que las condiciones (3) pueden escribirse de nuevo en térmi- 
nos integrales: 


Mor(X) =E, MaTQOL'(x, 0) =0. a 
Por ejemplo, para la familia exponencial (5.9), 
L’ (x, 0) = c*(0)/c(0) + a” (TO). 
Como MoL’ (x, 8) = 0, entonces c”(9)/c(0) = —a' (Ma TO), 
Mon(X)L'(X, 6) = —a' (M TX): Mor(x) + a’ (MoT OTA), 
y las ecuaciones (4) adoptan la forma 
Mo(r(X) - €) = 0, Ma(r(X) — e)T(X) = 0. 


En calidad de ejemplo ilustremos un caso para cuyo examen, de hecho, 
ya todo está preparado. 
2. Alternativas bilaterales. Familia exponencial. 


Teorema 1. Supongamos que fo(x) se define por la igualdad (5.9), y 
que se verifica la hipótesis Hı = (0 € [61, 021), 01 < 02, frente a la alternati- 
va Hz = (04101, 03). Entonces, si la función a(0) es monótona, 
1) en la clase Ks de criterios no desplazados de nivel 1 — e existe un 
cump. x que tiene la forma siguiente: 
O si c< TX) < c, 
*o0=jp si TW =c, i=l, 2, 6 
1 si T@ gic, cal, 


donde T(x) = Y) U(x), y las constantes ci, pi, i = 1, 2 se deducen de las 
i 
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condiciones 
MX) =£, ¡=1,2, (6) 
si 01 < 01, y de las condiciones 
Mo,H(X) = €, Mo W — ÐT) = 0, m 
si 61 = b. 


2) El criterio % minimiza la función B.(0) = Mex (X) en las condiciones 
(6) dentro del segmento [6,, 6], y la maximiza fuera de [9,, 62) en las condi- 
ciones (6) ó (7) (esto último sucede cuando 0, = 03). 

3) cuando 0 < è < 1 y 01 < 62, la función Š(0) = Mož(X) alcanza su 
valor mínimo en cierto punto 0 € (61, 02) y crece estrictamente al alejarse 
0 de ðo a la derecha o a la izquierda. Además, excluimos el caso (5.8). 

No es difícil ver que la enunciación de este teorema casi repite la afirma- 
ción del teorema 5.2. La única diferencia consistente en que las propias 
afirmaciones tienen, a veces, carácter “contrario” y no se excluye la igual- 
dad 01 = 02. 

Demostración. En el caso de 0, < 02, ésta es absolutamente análoga 
a la demostración del teorema 5.2. En la nota 1 adjunta a este teorema 
hemos dicho que para 6, < 62 todos los razonamientos del referido teorema 
conservan su validez en el caso cuando se verifica la hipótesis (04-101, 021) 
frente a (0 € (91, 02)), o sea, a los símbolos de este párrafo: la hipótesis 
Hh frente a la Hı. Pongamos *(x) = 1 — #°(x), donde 7° es la función 
definida en (5.6) para las condiciones MaT*(X) = 1 — £, i = 1, 2, en vez 
de (5.7). Entonces, las afirmaciones 2) y 3) serán, evidentemente, los corola- 
rios directos de las respectivas afirmaciones del teorema 5.2. 

La primera afirmación del teorema resulta de la segunda, ya que la clase 
de criterios x que satisfacen (6) es más amplia que Ķ, y, por consiguiente, 
% maximizará Mor(x) en la clase K, en cualquier punto 0 fuera de [6,, 
M). Esto significa que ~ es el criterio no desplazado uniformemente más 
potente. 

Nos queda examinar el caso 0, = 07. Aquí es más simple, por lo visto, 
hacer uso del lema 5.2. Tomemos cualquier  # 9, y examinemos el proble- 
ma de maximización de Mor(X) para las condiciones 


Mor) = e, Mo r(X)T(X) = Ma, T(X). 
Es evidente que nos encontraremos en condiciones del lema 5.2 si ponemos 


m=2f = fos fa = Ton fs = fo, £1 = €, £2 = Ma T(X). Según este le- 
ma, el máximo Mor se alcanzará en la función 


+0) = G si fe) > kifa) + AT), 
KO, si fo) < kafot) + TOO. 
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Examinemos la última desigualdad, que puede ser escrita en la forma 


CO) ¿(ao - ao Ti 

07 „ <k +k 3 

E 1 + KT). 

Está claro que para todos cı < cz siempre se puede escoger kı, kz de modo 
que esta desigualdad equivalga a 


ALT. 


Esto demuestra que el criterio de forma (5) maximiza Mer(X) en las condi- 
ciones (7) siempre que ci y Pi, i = 1, 2 puedan escogerse en (5) de modo 
que se satisfaga (7) (u (8). Este criterio será, evidentemente, el criterio no 
desplazado uniformemente más potente, ya que la clase de criterios m que 
satisfacen (8) es más amplia que K, y, por lo tanto, % también maximizará 
Mor(X) en Ke. Así pues, para demostrar el teorema queda demostrar que 
es válido el 

Lema 2. La ecuación (7) cuando 0 < £< 1 es resoluble respecto a ci 
Jm i=1,2, 

La demostración de este lema, al igual que la del lema 5.1, será expuesta 
suponiendo simplemente que la Po,-distribución de 7(X) es continua, es 
decir, Pa (TX) = c) = O para todos c. 

Recordemos que la densidad de la distribución T respecto a cierta medi- 
da v puede considerarse igual a (véase el $ 5) go(1) = c(0)e”. Entonces, las 
ecuaciones (7) y (8) serán equivalentes a las relaciones 


Ma — (X) = 0000) | e""»(d) = 1 — £ 0) 
á 


Ma, (l — (XX) T(X) = c(01) 7 te p(dt) = (1 — e)c(01) i te"™'v(di). 
á á 


Designando r(0 = 1, m = Ma, T(X) = c(01)[te*“v(dO), podemos escribir 
las ecuaciones (9) en la forma 


c0) | esad = 1-0, 
à 


c40) | rOe""»(d = 0 — em. w 
¿ 


Hemos llegado al problema que coincide con el problema examinado en 
el lema 5.1, La única diferencia consistente en que la distribución con densi- 
dad r(6)go,(1) puede ser generalizada (o sea, también puede adoptar valo- 
res negativos). En estas nuevas condiciones conviene poner fo = m. En lo 
demás, los razonamientos del lema 5.1 no cambian. < 
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$7*. Criterios invariantes. 


En este párrafo examinaremos otra manera de reducir la clase de todos 
los criterios, basada, esta vez, en las consideraciones de invariación. 

Supongamos que X € (Ps) y que (Ps) es una familia invariante. Re- 
cordemos las designaciones necesarias y los conceptos respectivos (véase 
el $2.19). Supongamos asimismo, que se ha dado un grupo G de transfor- 
maciones medibles g del espacio 2” en sí. La familia {P4} será invariante 
respecto a G, si para cada g € G y cada 0 € O hay un elemento 9, € O tal, que 

Po (X € A) = PolgX € A) 

para cualquier A € B. 

Las transformaciones E del espacio O, definidas por la igualdad Z0 = Op, 
forman, al cumplirse las condiciones Ao, el grupo O (véase el $2.19). 

Definición 1. Diremos que el problema de verificación de la hipótesis 
Hı = (0€0;) frente a Hz = (0€ 02), O1 UOz = O es invariante siempre 
que se cumplan las dos condiciones siguientes: 

1) La familia (Po) es invariante respecto a G. hs 

2) Los conjuntos O, y ©z son invariantes respecto a Z€Ú, o sea, 
0: = 0, i= l, 2. 

Si el problema de verificación de las hipótesis es invariante, es natural 
que para su solución se haga uso del criterio invariante. 

Definición 2. El criterio x se llama invariante cuando r(x) es estadística 
invariante respecto a g” 

(gx) = (x) para todos xe2”. geG. 

Si m es un criterio no randomizado y £), es la región de aceptación de 
la hipótesis H,, entonces, la invariación de ~ significará que gù = Q, j = 1, 

La utilización natural de los criterios invariantes se puede comprender, 
por lo visto, con más facilidad, a base de ejemplos. La investigación gene- 
ral, relacionada con la interpretación de g como la sustitución de las coor- 
denadas y la insensibilidad de las estadísticas respectivas a esta sustitución, 
está contenida en el $2.19. 
__ Ejemplo 1. Los ejemplos más simples se refieren al caso cuando el grupo 
G es trivial, o sea, cuando Ẹ para todo g es la transformación idéntica 8 
del espacio O. 

Supongamos que X € %,..; se verifica la hipótesis Hı = (01 < 0 < 
< o} frente a la alternativa adicional Hz. En este caso 


SO = rp f- D. 


ran 


® Véase la nota en la pág. 195. 
228030 
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Es evidente que la familia o, .» es invariante respecto al grupo G de trans- 
formaciones ortogonales g (revoluciones) del espacio 2”, con la particula- 
ridad de que Ẹ = Z para cualquier g. Por eso es natural examinar los 


criterios x que dependen exclusivamente de la estadística T(X) = È xê En 
= 


vista de que 0” ?7(X) € Pi/2,n/2 = Hn, entonces T(X) € Pa,n/2 para a = 
=1/(0*) y llegamos al problema de verificación de la hipótesis 
Hı = lar < a < as), aı = 1/(203), az = 1/(203), según la observación 
T(X) que tiene la distribución Pa, n/2 de una familia exponencial. Con ayuda 
de los resultados de los párrafos precedentes podemos construir el criterio 
no desplazado y uniformemente más potente, de nivel 1 — e, que acepta 
Hi cuando 


a S TO) S e, 10) 


donde c; se elige de modo que Pa,n2(R N [cr, 023) = Pasa AR N [en 
cl) = £. 

Nótese que en este ejemplo podríamos construir el criterio de la forma 
(1) partiendo también de otras consideraciones, o sea, basándonos en el 
principio de insuficiencia, ya que la estadística T es suficiente. Pues sabe- 
mos que toda la información acerca del parámetro y? está concentrada en 
T y no vale la pena utilizar otras estadísticas (o sea, otra información rela- 
cionada con la muestra). 

En lo sucesivo, allí donde sea posible, reduciremos inmediatamente este 
problema al problema de distribución de las estadísticas suficientes. 

Ejemplo 2. Supongamos que X € B, ¿2 Hi = [01 < 0 < 02]. En este 
caso 0 = (a, o”) y la transformación de desplazamiento gX = X + ¢ = 
«+e, Xn + c) induce la transformación Fa = œ + c que mantiene 
invariable la hipótesis H1. Si nos limitamos a investigar las estadísticas sufi- 
cientes 


T=xX h= Dw- 
ta 
entonces, la transformación g proporcionará 


TEXN =X% +c, TugT) = Ta(X). 


Ahora bien,, la estadística Tz es invariante respecto a G. Es decir, el criterio 
invariante x, basado en las estadísticas suficientes, debe ser una función 
de Tz. (Más adelante veremos que cualquier criterio invariante x debe ser 
una función de 72). En virtud del $2.32, 0772 € P1/2,0- 1/2 y llegamos 
al problema examinado en el ejemplo precedente. El criterio invariante no 
desplazado y uniformemente más potente tendrá la forma cı < Tz < (2. 
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Ejemplo 3. Los dos ejemplos examinados más arriba se referían a la 
distribución normal. Con arreglo a la distribución de la muestra X, la mis- 
ma era una distribución normal multidimensional con una matriz diagonal 
de segundos momentos. Para la exposición posterior es útil notar que la 
familia de distribuciones normales multidimensionales arbitrarias Ba, 


a. €R”, a? = layl, i, j = 1, ..., m es invariante respecto al grupo G de 
transformaciones no degencradas lineales 
gx=(x-a)C, 


donde C es una matriz inversa. En efecto, debemos convencernos que, con 
cierta transformación g, se cumple Pzs(A) = Pol(g”'A), donde Po = 
= Bao, 0 = (a, 0%), g” 'A significa, por lo común, el conjunto g”'A = 
= (xé R": gx€ A). Tenemos (o = Vlo*T) 


E) > 77% 1 exp {- H @- yo a) dx. 
ea 


Después de sustituir y = gx, obtenemos 


Baa = araale -16y - oey = as 


Teniendo en cuenta que g7 'y = yC™? + a, en la última integral podemos 
escribir el exponente de la forma siguiente: 


O - (a — aC” ta“ CTTO — (a — a0)". 
Por consiguiente, si se pone 
F0 = Ela, ô) = (ga, Co*C) = ((a — a)C, CTO), (2) 
obtenemos 
La. oe A) = Pra 0 (4). (0) 


Ejemplo 4. Supongamos que las hipótesis H; tienen la forma siguiente: 
Hj = (X € Pja), a €Z; j = 1, 2, donde Pj, son las distribuciones con 
densidades /;(x — a), j = 1, 2. Con otras palabras, nos interesa a cuál de 
dos tipos de distribuciones le pertenece, con una exactitud de hasta el 
desplazamiento, la muestra X. Aquí conviene poner 0 = (», a), » = 1, 2, 
a.€Z y examinar la transformación gX = X + c que en el espacio para- 
métrico induce la transformación g(9 = (», a + c). Está claro que las hipó- 
tesis Ay = {vx = j}, j = 1, 2 son invariantes respecto a E y, por lo tanto, 
el problema de verificación de estas hipótesis también es invariante. La esta- 
dística 

Y = (u — Xm, -> Xn-1 — Xa) 


22 
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será invariante respecto a g (compárese con el $2.18). La distribución de 
esta estadística en el punto y = (Y1, ..-, Yn-1), en caso de la hipótesis Hj, 
tiene la densidad siguiente: 


O = fII LO + DAO). o 


ist 


De aquí se deduce que para la observación Y, las hipótesis Fl se trans- 
forman en hipótesis simples, conforme a las cuales las densidades /J'para 
Y tienen la forma (4). En estas condiciones podemos hacer uso del lema 
de Neumann — Pearson y construir el c.m.p. z que acepta la hipótesis Aa si 


ADORO ><. 65) 


Como este criterio no depende de œ, el mismo será el cu.m.p. para verificar 
H, frente a Ha entre todos los criterios invariantes basados en la estadística 
Y: 


Con arreglo a los ejemplos examinados es conveniente estar seguro de 
que los demás criterios invariantes en estos problemas también son fun- 
ciones de las estadísticas invariantes escogidas por nosotros, Esto se refiere 
especialmente al último ejemplo, puesto que en los dos ejemplos anteriores, 
la elección de los criterios también se basaba en las consideraciones de sufi- 
ciencia. 

Para aclarar las relaciones mutuas entre los invariantes, introduzcamos 
algunos conceptos. Dos puntos x y x’ de 2” se llamarán equivalentes res- 
pecto al grupo G si existe g € G tal, que x’ = gx. Como G es un grupo, 
entonces todo el espacio 2” se divide en clases disjuntas de equivalencia, 
que en el $ 2,19 hemos llamado órbitas. Para obtener cierta órbita es sufi- 
ciente tomar un punto cualquiera xo de la misma y aplicar a éste todas 
las transformaciones g de G. Por ejemplo, para las transformaciones orto- 
gonales del ejemplo 1, las órbitas forman esferas cuyos centros coinciden 
con el origen de coordenadas. 

La invariación de la estadística T respecto a G es univoca al hecho de 
que T es constante en cada órbita. 

Definición 3. La estadística T se denomina invariante máximo si la mis- 
ma es invariante, y de T(x’) = T(x) se deduce x' = gx para cierto g € G. 

Esto significa que el invariante máximo adopta distintos valores en órbi- 
tas diferentes. 


Teorema 1. Sea T el invariante máximo. La estadística S es invariante 
si y sólo si S depende de X a través de t, o sea, si existe una función p 
tal, que SOX) = (TV). 
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Para simplificar la exposición, aquí no tratamos una cuestión importan- 
te, relacionada con la mensurabilidad de p. Nótese solamente que en los 
ejemplos examinados en este párrafo, tal mensurabilidad tendrá lugar”. 
Demostración. Si S) = p(1(2)), entonces S(gx) = ¿T(gx) = p(T(%) = 
= S(x) y, por lo tanto, S es invariante. Para demostrar la afirmación inversa 
debemos convencernos de que de T(x) = T(x’) resulta S(x) = S(x’). Pero 
esto es así en virtud del hecho de que 7(x) = T(x’) provoca la existencia 
de una g tal, que x’ = gx. Pero como $ es un invariante, S(x) = S(x’). < 
A título de ejemplo examinemos el grupo G de desplazamientos 


P=x+o=(M+C, ..., Xat e) 


Como ya hemos señalado, la estadística Y(x) = (1 — Xn, ++.» Xn-1 — Xn) 
es un invariante. Mostremos que éste es el invariante máximo. En efecto, 
ES YO) = Y) (xi — Xk > X4=1— Xx) se desprende que 

— Xa = x/- xy para todos į = 1, ..., n — 1. Poniendo x4 — Xn = C, 0b- 
tenemos x=x+c¿=1,...,n,x” =x + C [= gx, lo que precisamente 
significa la equivalencia necesaria de x’ y x. 

Ahora podemos volver al ejemplo 3 y afirmar que el criterio (5) es el 
cu.m.p. entre todos los criterios invariantes, puesto que según el teorema 
1 todos los criterios invariantes son funciones de Y y, por consiguiente, 
la suposición de que exista un criterio invariante más potente que (5) será 
contradictoria. 

Por analogía a lo expuesto anteriormente, el lector puede convencerse 

n 


de que la estadística J, x? en el ejemplo 1 también es un invariante 
mi 


máximo. 

Si existen estadísticas suficientes, al principio suele ser conveniente redu- 
cir el problema inicial al problema respecto a la distribución de las estadísti- 
cas suficientes y luego emplear las consideraciones de invariación así 


como se hizo en el ejemplo 2, donde la estadística Ta = Y) (xı — XY es, 
im 


evidentemente, el máximo invariante en la observación (X, T2). 

En conclusión de este párrafo es preciso señalar una vez más, que la 
esencia del enfoque relacionado con la invariación consiste en que los 
problemas sometidos a examen y destinados a la verificación de las hipóte- 
sis, deben reducirse a problemas más simples, referentes a la distribución 
de los invariantes máximos. En estas nuevas condiciones, que son más 
simples, resulta posible, en varios casos, construir el c.m.p. o el cu.m.p. 


> Véanse, por ejemplo, [57] y (95. 
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En este sentido, el “principio de invariación” se asemeja a los “principios” 
de suficiencia y de no desplazamiento, de acuerdo con los cuales el proble- 
ma inicial se reduce a un problema en términos de estadística suficiente 
o de estadística no desplazada. 


$ 8% Enlace con los conjuntos confidenciales. 


1. Enlace de los criterios estadísticos y los conjuntos confidenciales. 
Enlace de las propiedades de optimización. Los conceptos de conjunto con- 
fidencial y de criterio estadístico están estrechamente ligados entre sí. En 
el $2.31 hemos dado la definición del conjunto confidencial. Recor- 
démosla. 

Sea X € Po, 0€ 0. 

Definición 1. El subconjunto aleatorio ©* = O*(x, e) del espacio esta- 
dístico © se llama conjunto confidencial de nivel 1 — e, si 


PO "(X, 2)30)>1-e 0) 
para todos ô € ©. 
Evidentemente, el intervalo confidencial es un caso particular del con- 


junto confidencial. Este último tiene el mismo sentido: con una probabili- 
dad >1 — e recubre el valor verdadero del parámetro. 


Designemos 
QA, E) = (xE2”: 0€0*(x, 8). a) 
Entonces, las relaciones 
BEO, e) y xEN(, e) 6) 


serán equivalentes. 

La definición del conjunto confidencial supone que el conjunto Q(, 
€) en (2) es medible, así que la probabilidad en (1) tiene sentido y es igual 
a Pa(X € 00, e). 

Los conjuntos confidenciales y los criterios estadísticos para verificar 
la hipótesis Hı = (0 = 01) frente a la alternativa adicional Hz = [0 € 02), 
61 4 O», están enlazados entre sí del modo siguiente. Supongamos que para 
cada 0; ha sido definido su conjunto ©z = ©2(81) $01. 


Teorema 1. 1) Examinemos para cada 0, el criterio no randomizado 
x = ódenivel 1 — e para verificar la hipótesis Hı frente a Ha, y designemos 
por Q(01, e) su región de aceptación de la hipótesis Hı. Entonces, el 
conjunto 
OX, e) =10€0; XERO, £) 


será un conjunto confidencial de nivel 1 — €. 
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AI contrario, si O*(X, E) es un conjunto confidencial de nivel 1 — e, 
entonces el conjunto Q(01, E) C 2”, definido en (2) y adoptado como re- 
gión de aceptación de Hı, determinará el criterio para verificar Hi 
= (0 = 0) frente a Hz = [0 € O:(01)) de nivel 1 — e para cualquier O:(01), 
91 492(0). 

2) Si el criterio = con la región de aceptación Q(01, £) de la hipótesis 
H, es el c.u.m.p., entonces, el conjunto respectivo O(X, €) minimizará la 
probabilidad 


Po(0' € O*(X, E) para todos 0, 0”, 0€ Or(a”) (4 


en la clase de todos los conjuntos confidenciales de nivel 1 — €. 
También es cierta la afirmación contraria: La minimalidad (4) significa 
que el conjunto respectivo Q (6, e) engendrará el c.u.m.p. 
Para el parámetro unidimensional se usan principalmente los casos 


020") = (0: 00") y O:(0") = 10: 0 > 8’) (o bien (0: 0 <0)). 


En el primero de ellos en (4) tendrá lugar la minimización para todos 
9' 40, y en el segundo, para todos 6” < 9. 

Así pues, en (4), el teorema afirma que para O*, la probabilidad Po 
se minimiza de que todo otro valor de 9” # 0, tal que 0 € O2(0"), pertenezca 
a un conjunto confidencial. Esta es una de las maneras de separar los inter- 
valos confidenciales óptimos. 

Definición 2. Los conjuntos confidenciales para los cuales se minimiza 
(4) a condición (1) se llaman conjuntos confidenciales más exactos (de nivel 
1 ~ £) respecto a las alternativas 0” tales que 0 € 0(0”). 

Más adelante expondremos cierta argumentación adicional para tal en- 
tendimiento del intervalo confidencial óptim 

Ahora bien, el teorema 1, establece que la “inversión” del conjunto Q 
(01, e) para el cu.m.p. da el conjunto confidencial más exacto. En este caso 
es importante señalar que el referido procedimiento de construcción de los 
conjuntos confidenciales no está de ningún modo relacionado con la di- 
mensión de 6. Incluso se pueden examinar los parámetros de dimensión 
infinita 6 e identificar 6 con la propia distribución P de la muestra X. En- 
tonces, las relaciones de equivalencia (3), donde A (9, £) = Q(P, £) es la 
región de aceptación de la hipótesis {X € Pj frente a la alternativa 
{X € Pı # P), permiten construir el conjunto confidencial para P. Por 
ejemplo, en el $ 1.6 hemos visto que la distribución de la estadística 
Da = Vn sup |FA(t) — F(t)|, a condición de que X € P, donde Fes una fun- 


ción continua de la distribución correspondiente a P, no depende de F y 
puede ser determinada. Por consiguiente, podemos hallar tal d = d(£), que 
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P(D, < d(£)) = 1 — e. Ahora bien, la desigualdad 
Vn sup|FXÐ -KN <d 


define la región de aceptación de la hipótesis (X € P} para el criterio de 
nivel 1 — e. 

Pero esta misma desigualdad también define el conjunto confidencial 
para F: simplemente debido a la simetría de esta desigualdad respecto a 
F y Fẹ aquí no se necesita ningún procedimiento especial de “inversión”. 

La demostración del teorema 1 es casi evidente. La misma se basa en 
la equivalencia (3), en virtud de la cual 


Po(06€ 8*(X, E)) = PAXEN(O, £)) >1- E 


Esto demuestra la primera afirmación. Para demostrar la segunda examine- 
mos cualquier otro conjunto confidencial Ö*(X, €), y sea Ñ(0, e) el subcon- 
junto correspondiente en 2”. 

Entonces, 


PAX EDO, €) = Pa € Õ*X, )>1 8, 
Po(X ELO, €)) > PAX ERO, E) 
para todos 0 € O2(01) y, por lo tanto, 
Poli € D*(X £)) > Pol € O*(X, E). < 


Examinemos ahora un importante caso particular relacionado con el 
parámetro unidimensional 9. 

2. Intervalos confidenciales más exactos. 

Teorema 2, Supongamos que el conjunto N(8, e) del c.u.m.p. examinado 
en el teorema 1 tiene la forma 


cu(0, £) < T(x) < C2(0, E), 


donde cú(0, e) dependen monótona y continuamente” de 9. Supongamos, 
para precisar, que c;(9, e) crecen. Entonces, el conjunto confidencial más 
exacto (de nivel 1 — €) respecto a las alternativas 9” tales, que 0 € 0:(0"), 
tendrá la forma de intervalo 


ST << E a, 


donde T = T(X), ci `(t, e) son las soluciones de las ecuaciones ck0, €) = 1 
respecto a 0. 


” Las propiedades de monotonía y de continuidad de cx(8, £) se deducen, por lo general, 
de las mismas propiedades de la función de distribución P+7(X) < c). En las designaciones 
del $2.31, cr(0, e) = G7 Mes), cx(0, e) = GF "(1 — en), donde Ge es la función de distribución 
TOD, e1 + = e 
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Ahora bien, vemos que el procedimiento de construcción del intervalo 
confidencial es aquí, de hecho, el mismo que en el $ 2.31 con la única parti- 
cularidad de que en calidad de estadística S aquí se utiliza la estadística 
T del criterio uniformemente más potente. 

La demostración del teorema es evidente y se la dejamos al lector. 

Ahora examinemos más detalladamente los intervalos confidenciales 
unilaterales para 6 escalar. Estos intervalos se utilizan allí donde reviste ma- 
yor interés una sola cota para estimar el parámetro, Tales situaciones surgen 
cuando se estima la probabilidad de que se produzca cualquier suceso inde- 
seable o, digamos, cuando se estima el esfuerzo de rotura de una nueva 
aleación. 

Debido a la simetría es posible reducirse al examen de la frontera confi- 
dencial inferior 0” (X, £) para la cual 


Po(07(X £) < 0) > 1 — e. (5) 


Definición 3. La frontera 0” = 0” (X, £) para la cual Po(0” < 0”) es 
mínima con todos 9” < 6 se llama frontera confidencial inferior más exacta 
de nivel 1 — £. 

Supongamos que w(9”, 0) es cualquier medida de pérdidas que surgen 
debido a la “subestimación” de 9: w(9” , 0) = 0 cuando 0” >0 y w(07, 
6) > O cuando 0” < 0; en este caso w(9”, 0) crece continuamente al alejar- 
se 07 de 0, Mow(0”, 0) < co, 

La siguiente afirmación aclara, en cierta medida, el sentido de la defini- 
ción 3. 

Lema 1. La frontera inferior más exacta 0” minimiza el valor Mew(0”, 
0) para la condición (5) y para cualquier función w que posea las propieda- 
des enunciadas anteriormente. 

Demostración. Sea f- otra frontera inferior. Entonces, como los incre- 
mentos duw(u, 0) respecto a u en la región u < 9 son negativos, 


Mow(0”, 0) = f w(u, 0)Jd.Po(0” < u) = — [Poco < u)Jduw(u, 0) < 


e 
< — | Pod” < u)duwlu, 0) = Mow(f-~, 0) < 


Así pues, vemos que el enfoque de la definición de los conjuntos confi- 
denciales más exactos en caso de los conjuntos unilaterales es muy natural. 
Ahora, con ayuda de los teoremas 1 y 2 y los resultados del $ 5 se pueden 
construir explícitamente los intervalos confidenciales unilaterales para el 
caso cuando la relación de verosimilitud es monónona. 

Teorema 3. Supongamos que X € Po y que la familia (Po) tiene rela- 
ción de verosimilitud monótona respecto a la estadística T(X) cuya 
Pedistribución Gu(t) = PAT(X) < 1) es continua respecto a 8 y t. Enton- 
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ces, la estadística T de la distribución depende monótona y continuamente 
de 0, (o sea, Gu(t) decrece continuamente con el crecimiento de 0, véase 
la definición 2.31.3). Si D(t, y) es la solución de la ecuación Ga(t) = y res- 
pecto a 0, entonces, la frontera inferior más exacta 0” (X, £) de nivel | — € 
es igual a 


01% €) = (TX), 1 - E). 


Con otras palabras, en la afirmación del teorema 2.31.1 obtendremos 
la frontera confidencial inferior más exacta si utilizamos en calidad de S 
la estadística 7: 

Demostración, En nuestro caso, en condiciones de los teoremas 1 y 2 
es necesario poner ©2(8) = {f t > 0). En virtud del teorema 5.1 existe un 
cu.m.p. no randomizado para verificar H,=(0=0,] frente a 
Hh = 10 > 0) con la región Q (01, e) = [X: T(X) < c) de aceptación de 
Hi, donde c = c(01, 1 — £) = Go, (I — €) se deduce de la condición 


Pa (T(X) < (01, 1 — £)) = 1 — €. 
En este caso 
Pa(T(X) > 0) > € = Pa (TX) > c) 


cuando 0 > 01. Esto último quiere decir que c(01, 1 — £) < c(0, 1 - e) 
cuando ĝi < 9, o sea, la función c(0, 1 — £) crece respecio a 6. La conti- 
nuidad de c(0, 1 — e) =G+' (1 — €) respecto a 0 se deduce de la conti- 
nuidad de Gs. 

Vemos que las condiciones de los teoremas 1 y 2 se cumplen por comple- 
to cuando c2(0, £) = c(9, 1 — £) y, por lo tanto, el conjunto confidencial 
más exacto tiene la forma del semiintervalo (c” (T(X), 1 — £), 00), donde, 
como hemos visto en el teorema 2.31.1, c" UT 1 — £) = b(T, 1 — €). < 

De un modo exactamente igual se puede construir la frontera superior 
más exacta 0*(X, e). 

Ahora supongamos que 6” (X, £1) < 0* (X, £2) designan las fronteras 
confidenciales superior e inferior de los niveles 1 — e, y 1 — £, respectiva- 
mente. Como los sucesos (9” (X, £1) > 0) y [9* (X, e2) < 6) son disjuntos, 
entonces 


PO (X, e1) < 0 < 0* (X, &)) = 1 € — €2, 


y (07 (X, £1), 0* (X, 22) es el intervalo confidencial de nivel 1 — £1 — ê. 
Sean w:(0”, 0) y wz(9*, 0) las funciones de pérdidas para las fronteras 
07 que possen las propiedades descritas en la enunciación del lema 1. 
Lema 2, Sea w(9”,0*,0) = w1(0”,0) + w(9*, 0). Entonces, el interva- 
lo confidencial (07 , 0*), formado por las fronteras superiores e inferiores 
más exactas, minimiza Mow(0” , 0*, 0) para las condiciones 


Po(07 > 0) < € Po(0* <O) < ez 


4 8. ENLACE CON LOS CONJUNTOS CONFIDENCIALES i 
Este lema es el corolario evidente del lema 1. El mismo muestra que 

el intervalo confidencial construido con ayuda de las fronteras inferior 

exacta y superior exacta también poseerá propiedades de optimización. 

El teorema 3 da la posibilidad de construir explícitamente tales interva- 
los para las familias paramétricas que tienen monótonas las relaciones de 
verosimilitud. 

Le proponemos al lector que el mismo se cerciore, a base de las observa- 
ciones efectuadas, de que los intervalos confidenciales, construidos en el 
$ 2.32 para la media y la varianza de la distribución normal, tendrán las 
fronteras superiores e inferiores más exactas. 

En el teorema 1 y en las investigaciones posteriores figuraba la condi- 
ción de que el c.u.m.p. no es randomizado. Sin embargo, esta limitación 
no es importante. Cualquier criterio randomizado x puede ser representado 
como criterio no randomizado, si en la investigación se introduce una ob- 
servación adicional Y que sea independiente de X y que esté uniformemente 
distribuida en (0, 1]. En efecto, examinemos, para la nueva muestra (X, 
Y), la región crítica 


Q = ((% y): 7) >), 


O sea, supongamos que ô(X, Y) = 1 si (X, Y) €N, y que ô(X, Y) =0 en 
el caso contrario. Entonces, para toda distribución de X, 
1 


POX, Y) = 1) = P(X) > Y) = | Prix) > y)dy = Mr(x), 
è 

y, por consiguiente, el criterio ô es equivalente (según sus parámetros) a 
x. ¿Cómo aprovechar esta circunstancia para construir los intervalos confi- 
denciales en condiciones del teorema 3? Supongamos, para abreviar, que 
la estadística 7(X) es de números enteros (como hemos visto, la falta de 
los cu.m.p. sólo puede ser provocada por el carácter discreto de la distribu- 
ción 7). Entonces, la observación S(X, Y) = T(X) + Y, Y € Ub,1 conserva 
toda la información contenida en 7(X), ya que 7(X) es una parte entera 
de S(X, Y). Eligiendo c(0, €) entero, al cu.m.p. de nivel 1 — e se le puede 
conferir la forma siguiente: se acepta la hipótesis Hi si 


SX% Y) <c(0, 1-8). 


Así pues, hemos construido los conjuntos requeridos £2 (0, e) y sólo queda 
“invertirlos” usando el mismo procedimiento que antes. Obtendremos la 
frontera, inferior 

0 Y, €) =co (TA + Y, 1-0), 
donde c”! es la función inversa a c con arreglo al primer argumento. Aquí, 


de la propia escritura se deduce que para definir 0” es necesario realizar 
una observación adicional Y. 
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Ejemplo 1. Sea X € Bp, y nos interesa la frontera confidencial superior 
p* de nivel 1 — e para la probabilidad p = P(% = 1) = 1 — PQ = 0). La 
familia de distribuciones (By) es exponencial y satisface las condiciones 


del teorema 3, donde conviene poner T(X) = Y) x. Examinemos la obser- 
i 


vación a 
S= Yx+Y YEW 
E 


Esta tiene en el punto f, 0 < £ < n + 1, la densidad Cp — py, 
Designemos por Gp” la función de distribución con esta densidad. Enton- 
ces p* será la solución de la ecuación Gp(t) = e. 

3. Conjuntos confidenciales no desplazados. Volvamos a la cuestión 
acerca de los conjuntos confidenciales más exactos. Con ayuda del teorema 
3 podemos construir las fronteras superiores e inferiores más exactas basán- 
dose en el hecho de que para las alternativas unilaterales (9 > 01), (8 < 01) 
de las hipótesis (9 = 61], en una serie de casos existe el cu.m.p. Si tratamos 
de utilizar los teoremas 1 y 2 directamente para construir los intervalos 
confidenciales más exactos, necesitaremos la existencia de c.u.m.p. para ve- 
rificar la hipótesis (0 = 01] frente a {0 # 01), lo cual ocurre múy raramen- 
te. La salida de esta posición consiste en la reducción natural de la clase 
de intervalos confidenciales sujetos a investigación, procediendo del mismo 
modo que cuando reducimos las clases de criterios examinados en el 
$ 6.7, es decir, introduciendo los conceptos de conjuntos confidenciales no 
desplazados e invariantes. 

Supongamos que, como antes, a cada 0 le corresponde el conjunto 
90), 0 4o2(0). 

Definición 4. El conjunto confidencial O*(X, £) para 0 de nivel 1 — e 
se considera no desplazado respecto a las alternativas 0", tales que 
0€ 010") si 

Po(0" € O*(X, £)) < 1 — e para todos 6, 0”, 0 € O2(0"). (6) 

El conjunto 6*(X, e) se considera simplemente no desplazado si (6) 
es válida para todos 9” 54 9. 

El no desplazamiento del conjunto confidencial significa que la proba- 
bilidad de que éste recubra el valor falso de 8' no es mayor que la probabili- 
dad de que el mismo recubra el valor verdadero. 

Definición 5. Los conjuntos confidenciales para los cuales se minimiza 
(4) en condiciones (1) y (6) se llaman conjuntos confidenciales no desplaza- 
dos más exactos (de nivel 1 — £) respecto a las alternativas para las cuales 
0€ 00"). 

Teorema 4. 1) Los criterios no randomizados y no desplazados en- 
gendran, en virtud de la equivalencia (3), conjuntos confidenciales no 
desplazados, y al contrario. 
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2) Si (0, £) para cada 6, € O es la región de aceptación de la hipótesis 
{0 = 6,) del criterio uniformemente más potente no desplazado y no ran- 
domizado, con una alternativa (0 € ©2(81)}, entonces, el conjunto respecti- 
vo O*(X, e) será el conjunto confidencial no desplazado más exacto, y al 
contrario. 

La demostración del teorema repite por completo los razonamientos del 
teorema 1, a los cuales sólo es necesario añadir que la propiedad de despla- 
zamiento se conserva al pasar de los criterios a los conjuntos confidenciales 
y al contrario. En efecto, las relaciones (1) y (6) son equivalentes a 

¿o PAX EMO, 2) < 1 6 < Pa (X EN, 2). 

Si r(X) es la función crítica de los criterios no randomizados que figu- 

ran en el teorema (X) = 0 para X€ (91, £)), entonces obtenemos 


Mox(X) = 1 — PX EN(, E), 
inf Mer(X) > £ > Ma r(X). 
ON 

Esta es, precisamente, la propiedad de no desplazamiento que equivale 
a(6). a 

Si utilizamos los resultados del $ 6 y construimos el conjunto confiden- 
cial no desplazado y más exacto para el parámetro 0 de una familia expo- 
nencial, obtendremos el mismo intervalo confidencial (9” , 8*) que hemos 
construido utilizando la monotonía de la relación de verosimilitud, o sea, 
el intervalo en el cual 9” y 0” son las fronteras inferior y superior más 
exactas, respectivamente, de niveles 1 — £/2. 

4. Conjuntos confidenciales invariantes. La siguiente definición utiliza 
las designaciones y los conceptos del párrafo precedente. Sea (Ps) una fa- 
milia invariante respecto a G. 

Definición 6. El conjunto confidencial O*(X, e) se llama invariante” 
respecto al grupo G si 


O*(gX, £) = ZO"(X, £) 0) 


para todos g € G. 

El sentido de este concepto es análogo al de la estimación equivariante 
($ 2.19). Si las transformaciones g y £ se interpretan como la sustitución 
del sistema de coordenadas que conserva la distribución, entonces (7) signi- 
ficará que el conjunto confidencial no depende del sistema de coordenadas 
en el que se expresan los datos iniciales. 


” Ateniéndose a la observación expuesta en la p. 195 del $ 2.19, sería más natural llamar 
el conjunto confidencial con propiedad (7), conjunto equivariante. 
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Definición 7. El conjunto confidencial O*(X, e) se denomina conjunto 
confidencial invariante más exacto de nivel 1 — e, si en él se minimiza 
Po(0’ € 8” (X, £)) para todos 6” 6 en la clase de todos los conjuntos 
©* que satisfacen (7) y la condición Pa(0 € O*(X, €) = 1 — e. Sea Q (01, 
e) la región de aceptación de la hipótesis Hı = (9 = 01) cuando la alterna- 
tiva constituye {9 = 6) para el criterio invariante de nivel 1 — e, Nótese 
que hay una diferencia esencial en las definiciones del criterio invariante 
y del conjunto confidencial invariante (esta diferencia no existiría si se nece- 
sitara el cumplimiento de la igualdad gM(0, e) = N(E0, £) y no de la igualdad 
gQ(0, e) = Q (0, e). Con este hecho está relacionada la circunstancia de 
que la correspondencia entre los criterios invariantes uniformemente más 
potentes y los intervalos confidenciales invariantes más exactos tiene un 
aspecto más complejo que en los teoremas precedentes. 

Examinemos el grupo de transformaciones G y supongamos que para 
cada 0 en este grupo hay un subgrupo G[0,] que deja invariante el problema 
de verificación de la hipótesis Hı = {0 = 01). Con otras palabras, 20, = 01 
cuando g € G[61). 


Teorema 5. Sea O*(X, £) un conjunto confidencial de nivel 1 — e inva- 
riante respecto a G. Entonces 

1) La región Q (0, €) = (x: 0 € O* (x, £)) será invariante respecto a Gl0] 
para cada 0. 

2) Si la región Q (0, €), correspondiente a O*(X, £), es la reg?ón de 
aceptación de H cuando la alternativa constituye (0 % 61) para el criterio 
invariante uniformemente más potente de nivel 1 — €, entonces O*(X, €) 
será el conjunto invariante confidencial más exacto. 


Demostración. 1) Supongamos que g € G[0]. Entonces gô = 0, 
gN, 6) = [ex 0e Oti £)) = fu 007 lx e) = 
= (xæ 06 g7 IO" £)} = (o 500% 2)} = 
= (x 0€0*(x £)} = Q0, e). 
2) Sea Ó* cualquier otro conjunto confidencial invariante de nivel 
1 — e. Según la primera afirmación, a él le corresponde el criterio invariante 


de nivel 1 — £ con la región Ú (6, e) de aceptación de Hi. 
Como, por suposición, 


PAX EN (01, £) > Pol X E ÑO, 6), 
entonces 
Poli € O*(X, £)) > Polbi € Õ*(X, E). 
cuando 01 # 6. Que es lo que se necesitaba demostrar. < 
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Ejemplo 2. Supongamos que X € B.,.. Se necesita construir el conjun- 
to confidencial más exacto para el parámetro o”, siendo desconocido a. 
En el ejemplo 2 del párrafo precedente hemos visto que la familia La,o? 
es invariante respecto a las transformaciones de desplazamiento 
gx=X+c si Ela, 0)=(a+c 0) La estadística Si= 


3 


TE > (a — x) es el máximo invariante construido según la esta- 


in 
dística suficiente. Además, la hipótesis H; = [o = 01) es invariante respec- 
to a G. Conforme al ejemplo 7.2, el criterio uniformemente más potente 
invariante y no desplazado para verificar H, tiene la forma 

M0 < (n = DS < hd, (8) 


donde h,e se deduce de las condiciones (véase la condición (6.7) del teore- 
ma 6.1): 
Ple < xn < ha) = 16, 
MOG- 15M, < Xa-1 < he) = (1 Mx, 
X-i E Has. 


El conjunto confidencial O*(X, £) correspondiente a (8) tiene la forma 
del intervalo 


(n — 1)S8/he < oè < (n — 1)S8/h s- (9) 


Este intervalo es, evidentemente, invariante respecto a g, al igual que 
el criterio (8) (en este ejmplo Gloy| = G para cualquier 01). Por lo tanto, 
en virtud de las segundas afirmaciones de los teoremas 4 y 5, el intervalo 
(9) es el conjunto confidencial no desplazado e invariante más exacto de 
nivel 1 = e, 

Ejemplo 3. Supongamos que X € Bas. Es necesario construir el con- 
junto confidencial máx exacto para el parámetro œ cuando se desconoce 


o. Aquí a 
a y Qu ar}. 


isi 


| 


La familia «s, será invariante respecto al grupo G de las transforma- 
ciones lineales 8X = ax + b si se pone Ela, 0) = (aœ + b, =a0). El par 
de observaciones (X, Sô ) forma una estadística suficiente. Es fácil ver que 
con su ayuda no se puede construir una estadística que sea invariante res- 
pecto a G. No obstante, para cada a, se puede separar un subgrupo Glor] 
de transformaciones gX = a(X — «1) + œ respecto al cual la estadística 
(X — 011)/S0 será el máximo invariante. La hipótesis Hı = [a = œ) queda 
invariante respecto a G[a1]. Investigando la densidad (x — œı)/So se puede 
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mostrar, con ayuda de los métodos del $ 7 (omitimos estas consideraciones 
puesto que son muy complicadas”), que para cada ø, el criterio uniforme- 
mente más potente no desplazado e invariante para verificar la hipótesis 
H; frente a {œ + a } existe y tiene una región de aceptación de H, en forma 
de 


vVnlx — uj/So < re, (10) 


donde v se determina de la condición P(l»-1| > 72) = 8, fa=1 € Ta=5 
El conjunto confidencial respectivo ©* tiene la forma 


X — 7eSo/Vn < a < R + 1eS0/Vn. a) 


Es fácil ver que este intervalo confidencial es invariante (9*(gX, 
£) = g0*(X, £)). Según la primera afirmación del teorema 5, el criterio 
(10) será invariante respecto a G [œ]. De acuerdo con la segunda afirma- 
ción, el intervalo confidencial (11) será el criterio confidencial más exacto 
(uniformemente respecto a g) no desplazado e invariante de nivel 1 — £. 

Ahora bien, en este párrafo hemos establecido que todos los intervalos 
confidenciales construidos en el $ 2.32 son, en cierto sentido, óptimos. 


$ 9. Enfoques bayesiano y minimax de la verificación de 
las hipótesis compuestas 


1. Criterios bayesianos y minimax. En el $ 4 hemos descrito los enfoques 
bayesiano y minimax. Allí mismo hemos dado las definiciones respectivas 
que recordaremos en la exposición posteri 

Supongamos, como antes, que se verifica la hipótesis Hi = (9€01) 
frente a Ha = (0€ 02), basándose en la muestra X € Pe 

El enfoque bayesiano completo supone que © se elige al azar con la 
distribución a priori Q en © = 0,U0%. La distribución Q induce las distri- 
buciones @ en O, į = 1, 2 y las probabilidades (i) = Q9 E ©;), así que 
Q = 4(1)Q: + q(2)Q2 Designemos por Fo, la hipótesis de que 0 € ©; se 
elige al azar, con la distribución Qı. Según esta hipótesis, X tiene la 
densidad 


Sole) = | SecdQlAN. 


Se entiende, por supuesto (véase el $ 4), que en O; están definidas las 
a-álgebras de o, a base de las cuales se eligen Qs y que fo(x) es medible 
respecto a © x B "2 

De los resultados del $ 1, 2 se deduce que el criterio bayesiano ro para 
verificar Ho, frente a Ho, en el problema descrito anteriormente tendrá 


% Esto se expone más detalladamente en 157), p. 312. 
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la forma 


1, si Jo.00 > ao, 
TAO = } p, si Je = Sao, w 
0, si Ja) < YO, 


donde c = q(1)/4(2), p € [0, 1] es arbitrario. 

El enfoque parcialmente bayesiano está relacionado con la verificación 
de la hipótesis Ho, frente a Ho, en el caso cuando falta la distribución 
a priori entre Ho, y Ho, (que se define por las probabilidades q(1) y 9). 
Pongamos 


K? = (Mar < el. 


Entonces el criterio To, se llama bayesiano en K$’ si éste es el c.m.p. 
de nivel 1 — £ para verificar Ho, frente a Ho,. El criterio oo, tendrá la 
misma forma (1), donde c y p se eligen de la condición Moo, (X) = €. 

En vez de rg,o, escribiremos ro, y o, si uno de los conjuntos O, o 
0% se degenera en conjunto de un punto {f} o (8). 

En las aplicaciones rara vez se encuentran problemas en las que las 
distribuciones Q; son completamente conocidas. Sin embargo, ya hemos 
visto repetidas veces que la utilidad del enfoque bayesiano no se limita 
exclusivamente a la posibilidad de aplicarlo directamente. Este enfoque per- 
mite construir los cu.m.p., y también los minimax (compárese con los 
$6 1, 5 y 6). Posteriormente utilizaremos el enfoque baycsiano también para 
construir los criterios asintóticamente óptimos. Sea, como antes, 


Ke = {r sup Mor(X) < €). o) 
seo 
Entonces el criterio, F se denomina minimax en K, (en K$') si 
TEK. (TE Ks’), y para él se minimiza 
inf Mex(X) = inf 8(0). 6) 
aos A 
Cabe señalar que si las funciones de potencia £(9) = Mox(X) son conti- 
nuas y los conjuntos ©: y 6» se tocan, entonces 
B= sup inf 860) < e (4) 
Seke co 
y la desigualdad £ > e no puede cumplirse. Por eso, si se desea que la poten- 
cia garantizada (3) sea suficientemente grande (en todo caso, mayor que 
e), conviene examinar los conjuntos “separados” , y ©» Con otras pa- 
labras, es necesario eliminar la zona de los valores de 6, donde B(0) es próxi- 


ma a £ como zona de “indiferencia” de los criterios, y examinar, en calidad 
de O», el conjunto que no toca O. 


238030 
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No obstante, si los conjuntos se tocan, todo criterio no desplazado en 
Ko será minimax. En efecto, para los criterios no desplazados £(0) = 
= Mor(X) > £, 0 € 02 y, por lo tanto, 8 = inf 8(0) > 2 alcanza, en vir- 
tud de (4), su valor máximo. FA 

La afirmación inversa es cierta en el caso general: el criterio minimax, 
si existe, no está desplazado. Esto se desprende del hecho de que 


B= sup inf A0) > 
(podemos tomar x(X) = £) y del hecho de que para el criterio minimax 
inf 8(8) = $. 
060, 


El criterio uniformemente más potente no desplazado + en la clase K, 
de todos los criterios no desplazados, es minimax en K;. En efecto, sea 


B(0) la función de potencia del criterio +. Entonces, para cualesquiera 
TE Ke, 0€02, 


B0) > B0), inf B(0) > inf B(0), 
A A 


i = i = inf 8(0) 5 

inf 50) sp inf Bl) sup inf 60 ). (5) 

La última igualdad se explica por el hecho de que la adición a K, de los 

criterios de Ke, para los cuales dat B(0) < e, no cambia la magnitud sup 

en (5). < s reke 

En el teorema 5.3 hemos utilizado los criterios bayesianos para determi- 

nar el cu.m.p. La siguiente afirmación es cierto “desarrollo” del teorema 

5.3. La misma también es el análogo de los teoremas 1.2 y 2.11.2 y establece 

que los criterios minimax han de buscarse en la clase de criterios (1) cuya 
forma explícita conocemos. 


Teorema 1. Supongamos que existen las distribuciones Q; concentradas, 
respectivamente, en los conjuntos 87 C €, i = 1, 2, y las constantes e y 
p tales, que el criterio zoo», definido en (1), poseen las propiedades 


1) tom EK, 

2) Morga (X) = sup Moroo: (X0 (6) 
para todos 0€ 0%, 

3) MeToo (X) = i f Moroo (X) m 


para todos 0€ 03. 
Entonces toq, € K; es precisamente el criterio minimax en K, para ve- 
rificar H, frente a Ha. 
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El par de distribuciones Qı y Qz que posee las propiedades 2) y 3) es 
el menos favorable en el sentido de que para cualesquiera dos otras distribu- 
ciones Qi y Q%, 

inf € inf Morojos» 
inf Moroo: < inf Merojos 
donde rojo; es el criterio de forma (1) de Ke. 

La última afirmación significa que entre todos los criterios bayesianos 
(I), el criterio o,o, posee la potencia menos garantizada. 

Demostración. Como 


sup Mera.) = ¿Merao.Qido = Motoo: = E, 


entonces roo: € Ke. La potencia garantizada roo, es igual a (véase (7)) 
HiMen = J Metaal) = Matoa: = Bao (8) 


Sea ahora ~ cualquier otro criterio de Ke para verificar H; frente a Ha. 
Entonces r será simultáneamente el criterio de K¢' para verificar Ho, 
frente a Ho,, ya que 


Mar(X) = f! Mor(X) Qu(d0) < Sp Mera) Se 6) 
t 


Pero el criterio roio: es el cm.p. en Kẹ’ para verificar Ho, frente a Ho,. 
Por consiguiente, en virtud de (8), 


ar Moroo: (X) = Boo: > Mar(X) > inf Mor(X). 00) 


La primera afirmación del teorema queda demostrada. Sean ahora Q; y 
Q; cualesquiera dos otras distribuciones en O, y ©a respectivamente. El 
criterio rojos, al igual que roo,, será el criterio de K£” para verificar Ho; 
frente a Ho;, ya que 


Majro.(X) = | Moroo: VOQO) < supMeraaX) < €. 
e 


Pero el criterio ojos es el cm.p. para estas hipótesis, por eso, en virtud 
de (8), 
Boios = Mosrojos(X) > Mosroa(X) = 
= | Mergo: A0Q4(d0) > inf Merge) = Poo < 
& 


La principal dificultad en la aplicación del teorema 1 a los problemas 
reales consiste en buscar (o adivinar) las distribuciones menos favorables 
Qi y Qz En este caso a veces pueden resultar útiles las consideraciones 
de invariación, así como ocurre en los ejemplos del apartado siguiente. Es- 
tos ejemplos tienen interés autónomo y se utilizarán posteriormente. 
psi 
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2. Criterios minimax para el parámetro a de distribuciones normales. 
Ejemplo 1. Supongamos que X = xı € $.,,£ es una muestra de volumen 
n = 1 de una distribución normal m-dimensional con media a = (01, ..., 
om) y con matriz unidad de segundos momentos. Designemos 


lo?] = 3 a? y examinemos el problema de verificación de la hipótesis 
fer 


H = (la] < a) frente a 4h = [ja] > b), b > a (aqui hay una zona “sepa- 
radora” a < la) < b). 

Si, por ejemplo X determina (en un canal de comunicación) las amplitu- 
des de la señal vectorial compuesta por el “ruido” Xo € Po,1 y por la señal 
útil a, |a| > b, las hipótesis Hi se pueden considerar, para a = 0, como 
hipótesis de la presencia de la señal útil. 

En vista de que el ejemplo sujeto a examen se utilizará repetidas veces 
posteriormente, la afirmación referente a la forma del criterio minimax será 
enunciada en forma de teorema. 

Teorema 2. El criterio minimax % € K para verificar Hi = (la|) < a) 
frente a Hz = {|a|} > b), a < b, según la observación X € Pa,E, tiene la 


forma 
fl si X> ce, 
r0- CPT RA 
donde c: se elige de la condición p.(a) = e, la potencia garantizada es 
igual a peLb), 


PO =P- H n. >, 
£ € bo, son independientes. 


Demostración. Comencemos por consideraciones sugestivas. En nuestro 
caso, para x = (x™, ..., x“” tenemos 


SÁ) 


donde x” es el vector columna. De aquí se deduce que la familia de distribu- 
ciones espuesta a examen es invariante respecto a la transformación ortogo- 
nal gx = xC, donde C es la matriz de la transformación ortogonal en R”. 
En este caso hay que poner ga: = æC. Las hipótesis H; serán invariantes 
respecto a 8. 

Supongamos, para abreviar, que a =0. Si la distribución Qz en 
0: = (a:ja| > b) no manifestara invariación respecto a g (así sucederá, por 
ejemplo, cuando la misma se halle concentrada en el entorno de cualquier 
punto ao), entonces, esta asimetría podría utilizarse, de una u otra manera, 
para resolver tal problema (con la suposición que acabamos de hacer esta- 
ríamos próximos al problema de verificación de dos hipótesis simples 


1 1 Ti 
= roo -4 é- a- o}, 
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fæ = 0) y la = ao} y en este caso obtendríamos un criterio de gran poten- 
cia). Por lo tanto, dicha distribución no puede ser la menos favorable. Esta 
debe ser la distribución Q», invariante respecto a g. Además, está claro que 
obtendremos la peor variante si toda la distribución permanece concentrada 
en la frontera ©z (cuanto más semejantes sean las hipótesis, tanto más difí- 
cil será distinguirlas). Se pueden citar razonamientos sugestivos análogos 
respecto a Qı, si a 74 0. 

Así pues, es natural que en nuestro ejemplo las distribuciones menos 
favorables Qı y Qz sean distribuciones uniformes en las esferas O = 

= (a: |a| = a} y OF = (a: la] = b}. En este caso, de acuerdo con el teore- 
ma 1 el criterio minimax w tendrá la forma x(x) = mgo(x), donde 


Toal) = 1 si 
na ID 


exp (> (x — v(x = vy 
or 
>c f exp Eze e m2 a 
el 
y Tosx) = 0 en el caso contrario. Aqui dV(v) significa el área del ele- 
mento de la esfera correspondiente, V; = mes8f i= 1, 2. 


Examinemos cualquiera de estas integrales, por ejemplo, la derecha, y 
notemos que ésta puede ser escrita en la forma 


Mead 7, av) 
ef 7%” 2) f exp {xv A 
el 
Aquí la integral es igual a 
j exp (xlaewo"JdV(v/V, Y = mes 6°, 
Š 
donde €? es la superficie de una esfera unitaria, ey = x/|x|. Por consiguien- 
te, si designamos 
YO = | exp [tew")dV(0), (12) 
è 
entonces, la región (11) de aceptación de H2 tendrá la forma 
Y«lx]b) > cytixia) (13) 
(aquí, por c designamos las constantes que no coinciden obligatoriamente 
con el valor en (11). Pero, evidentemente, Y(f) no depende de x, puesto 
que el valor de la integral (12) no depende del sentido de dirección del vector 
unitario ex. Por eso 
YO = | exp lmidv(), 
$ 


donde vı es la primera coordenada del vector v. 
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Como y*(0) = 0, y” (f) > O cuando ż > 0, entonces y(t) es una función 
convexa creciente en (0, «). De aquí resulta que la desigualdad (13) u (11) 
equivale a 

bd ><. (4) 
Esto es, evidentemente, un criterio invariante. Comprobemos para él el 
cumplimiento de las condiciones 1—3 del teorema 1 y establezcamos asi- 
mismo que ello es el criterio minimax. 

“Tenemos 


Margo tX) = Pa(lX] > c) = do,s((x: |x — aj > c)). 


Está claro que el traslado del punto « en la esfera Ja] = const no modifica 
dicha probabilidad. Por lo tanto, esta última sólo depende de |a| y, por 
consiguiente, 


Matoa: = P(lE— al? > è) = 
= P( Ë @- a> e= PE- lat + e + PPs +5>0), 


donde ¿; € bo, son las coordenadas independientes del vector E. 

Lema 1. La función pt) = P((E — 1)? + E +... + > cè) es para 
cada c la función creciente |t|. 

De este lema se desprende que 


Mergo(X) = pellaj) < pela) cuando |a] < a, 
Margo(X) = pellal) > pe(b) cuando |a| > b. 


Estas relaciones equivalen a las condiciones 2) y 3) del teorema 1. Para 
que el criterio rg, sea el criterio de nivel 1 — £, debemos suponer que 
c es igual a la solución cę de la ecuación pe(a) = £. Ahora bien, Too, es 
el criterio minimax de nivel 1 — e y su potencia garantizada es igual a 
Pekb). < 

Demostración del lema 1. Como pe(t) = pe(— 1), podemos limitarnos 
a examinar los valores de f > 0. 

Examinemos primeramente el caso de m = 1. Designemos en este caso 
la función p.(f) por p(t). Tenemos 


PO = Pili — t? > è) =P c) +1 al o) 
Por consiguiente, la derivada respecto a í es igual a 


rO = -5y 


fe- 65D _ gra 


= E E 
i i le“ - e71] > 
y la función p(1) crece cuando £ > 0. 
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Cuando m> 1 la función pe(t) es la convolución de la función 
p(t) = p(t, c°) con la distribución x° de m — 1 grados de libertad: 


pet) = Toa € — U)d Ho (u). 
è 


Evidentemente, ésta también es una función creciente de 7 para f > 0. < 

En lo que se refiere al teorema 2 se puede señalar lo siguiente. Suponga- 
mos, para abreviar, que a = 0. Entonces, la hipótesis H; = {œ = 0) será 
simple. Si construimos el c.m.p. para cada alternativa œ € O2, obtendremos 
el criterio que tiene la forma 


RSE 


Esto significa que cada sentido de dirección de œ = at, ao € O$, t > 1 
tendrá su propio criterio más potente de nivel 1 — € 

xad > Ct, (15) 
donde c depende únicamente de & ya que Mo(Xad) = 0. 
Do(Xa4) = |a|? = b. Pero la región crítica del criterio minimax (invariante) 
debe ser igualmente sensible respecto a todas las alternativas. En concor- 
dancia con esto, la misma tiene forma de unión de los semiespacios (15), 
que no es otra cosa sino el exterior de la esfera. 

Ejemplo 2. Ahora supongamos que X = xı € ®a,è, donde o? = layl 
es una matriz arbitraria de segundos momentos, definida positivamente, 
Examinemos el problema de verificación de la hipótesis 
Hı = ao" < a°) = (jao”'| <a) frente a H = (00707 >b*] = 
= (Jao”'| > b), a < b. Del teorema 2 se deduce el 


Teorema 2A. El conjunto crítico del criterio minimax de nivel 1 — e 
para verificar H, frente a Ha tiene la forma 

xao’? > e} 
y la potencia garantizada p.(b), donde c es, como antes, la solución de 
la ecuación pela) = e. 


Demostración. Pongamos gx = xo y notemos que, en virtud de (7.3), 
Bu s(4) = Pia (e A), 
donde (a, E) = (a, o°). Para la esfera A = {x |x| < c} tendremos 
gA = {y = xa: xa < È} = (y yo y <ce, 
Bona) = Pao oll xo" < 0). 


(16) 
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El conjunto (a: [a] < a) pasa, después de la transformación g, al con- 
junto {8 = asiaa" < a?) = (8:Bo"?87 < a”). 

Ahora bien, todas las relaciones establecidas en el ejemplo 1 para 
$a elA) cuando laj<a o cuando la|>b serán válidas para 
Ba, ó((x:x0"?x" <c*)) cuando [85 '] <a o bien [85 '| >b, respecti- 
vamente. 

Esto demuestra el teorema 2A. < 

Ejemplo 3. Volvamos a examinar la muestra de la distribución normal 
*,,z con una matriz unidad de segundos momentos. Sin embargo, a distin- 
ción del ejemplo 1, las hipótesis H; sometidas a comprobación sólo tocarán 
una parte de las coordenadas del vector œ. Representemos œ en forma de 
un conjunto de dos vectores œ = (a”, a”), donde a’ = œn ..., a), 
a” =(0+1, -- -, Om), y examinemos el problema de verificación de la hipó- 
tesis Mı = (la”| < a} frente a Hz = (la ”| > b}, conforme a la muestra 
X = Xy = (X1,1, ++.» Xı,m) de volumen 7 = 1. Para cada una de las hipóte- 
sis, la magnitud œ’ puede adoptar un valor arbitrario. Procedamos del mis- 
mo modo que en el ejemplo 1, pero en calidad de Qı y Qz escojamos las 
distribuciones uniformes en las “esferas” ©? = faila”|=a, a’ = aj), 

3 = [ala”| = b, a’ = a), donde ay es un punto registrado cualquiera, 
Si designamos xí = (X1,1, ---, X1.0), XF = (X1.041) ++.» X.m), Obtendremos 
como resultado el criterio minimax 


hi > Ce, 
donde ce es la solución de la ecuación 
PO A E > me (7) 


(los factores exp {- i (e — a’ — ao) en la desigualdad 


folX)+foi(X) > c serán eliminados, y ésta se convertirá en una igualdad 
del tipo (11)). Este resultado es completamente natural, ya que en nuestro 
caso las coordenadas xj; son independientes y, por lo tanto, el subvector 
xí no lleva en sí ninguna información respecto a a”. Por eso, de toda la 
muestra X = xı sólo es suficiente examinar el subvector xj y, en este caso, 
el problema se reduce al ejemplo 1. 

La verificación de las hipótesis en el ejemplo 3 pertenece a la clase de 
problemas en que existe el llamado parámetro “obstaculizador”. En nuestro 
caso, en calidad de tal parámetro servía el vector æ’. En virtud de las causas 
mencionadas anteriormente, éste en realidad no obstaculizaba la construc- 
ción del criterio minimax, el cual automáticamente resultaba independiente 
de a. 

De manera algo diferente ocurre en el ejemplo siguiente, más general, 
cuando las coordenadas xy son dependientes. 
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Ejemplo 4, Supongamos que X = xı € Pa,.?. Examinemos el proble- 
ma de verificación de la hipótesis 


= (ad"%7< a) frente a H = (ado > b?), (18) 


donde d”? es una matriz definida no negativamente de rango m — /< m, 
obtenida de o 7? a base de sustituir por ceros los elementos de cualesquiera 
l renglones y / columnas (con los mismos números de orden). Para facilitar 
la exposición podemos considerar que, para la matriz definida positivamen- 
te 02 * de orden (m — I) X (m — 1), inversa a la matriz 


À = Maxi - af a”), 


formada por las últimas m — 7 columnas y renglones de la matriz 
o = loj!, se vinica la hipótesis H =(a"0 a”T <a?) frente a 
H= {a"o a" > b?), donde xf, a” designan, al igual que en el 
ejemplo anterior, los mismos subvectores de los vectores xı y œ. En cada 
una de las hipótesis Æ, el parámetro obstaculizador œ’ puede ser arbitrario. 

Hablando en general, en este ejemplo, la distribución de xí depende 
de œ”. Hagamos la siguiente transformación para convertir xı en vector 
con coordenadas “ortonormalizadas”. Pongamos 


Y =x1A, (19) 
donde A = llayl es una matriz triangular con elementos ay = 0 j > i. Los 


restantes elementos se eligen de la condición y € Bs,z, donde £ = (Br, ... 
+.» Bm) = QA. Esto siempre se puede hacer, ya que de (19) obtenemos 


Ym = X1,m0m,m, 
Ym-1 = Xi,mäm,m=1 + Xim- 1am- 1m- 1 


De aquí y de las condiciones 
Moby — BÙ? = 1, 
May — BIG — Bj) = 0, 1% j, 
se determinan uno tras otro los valores 
Am = 1/0mm> 
OmmÚm,m-1 + Om-1.m0m- 10-13 = 0, 
Om,mām,m-1 + 20m,m-1Qm,m=1Om=1m-1 + Om- im- 1h 1 m1 = 1 


Ahora bien, la matriz triangular A es tal, que 
Mary 878) = Ma, 2 (10) (x1 0)A=A70?A=E. 
Del carácter triangular de A se deduce que el vector 8” = (Bist, ..., Bm) 
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depende únicamente de a”, y al contrario. Si designamos por Az la matriz 
triangular de orden (m — /) x (m— I), obtenida de los últimos m — / 
renglones y columnas de la matriz A entonces, obtenemos, evidentemente 
8” = a” An MoM = E. El conjunto O, = {aia" o7 a”? < a?) se con- 
vertirá en el conjunto 


I6: B = aA, a"or*a”T < a?) = (8: B"AT l02%A7 B"T <a?) = 
= (8: 6"8"T <a’) = (8 |6] <a). 
El “subparámetro” 8’ puede ser arbitrario si es arbitrario a”. 
Hemos llegado al problema del ejemplo 3. El criterio minimax de nivel 
l — e para verificar H, frente a Ha tiene, por consiguiente, la forma 
y"y"T> ce O bien (MA3 = 02 °) 
xion XiT > Ce, 


donde & es la solución de la ecuación (17). 
El último ejemplo es el más general entre los ejemplos 1—4. El mismo 
resume el contenido de estos ejemplos de la manera siguiente. 


Teorema 2B. Si a base de la muestra X = x1 € ba,o se verifican las 
hipótesis (18) relacionadas con el valor «,d “*a”, entonces el criterio mini- 
max de nivel 1 — e tendrá la forma 


xd Ax Í > Ces (20) 


donde ce se define en (17), y m — I es el rango d7?. 
La potencia garantizada del criterio (20) es igual a 


Ph- bP + h+... + Yym-1> G, Eo 
Si la muestra X tiene volumen n, entonces X € Pas» tendrá la forma 


xd "7 > c/n. 

El siguiente ejemplo tiene, en cierta medida, otro carácter. 

Ejemplo 5. Supongamos, al igual que en el ejemplo 1, que 
X = xı E Qu, es una muestra de volumen n = 1 de una distribución nor- 
mal m-dimensional de media œ = (æi, . . ., Am). Supongamos también, que 
Hi = (a = 0) y que la hipótesis Hz consiste en que æ pertenece a cierto 
conjunto © que no contiene los puntos a € O. Designemos por O» la 
clausura convexa del conjunto ©z (conjunto cerrado convexo mínimo que 
contiene O»), y sea £ el punto de 82 más próximo al origen de coordenadas. 
Entonces, si $ € Oz, la distribución Qz concentrada en el punto £ será la 
menos favorable, y el criterio minimax 7 tendrá la forma T(X) = 1 si 


(X - BUX — BY < XXT + ci 
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o bien, que es lo mismo, si 
XB”/181 > ca, 
donde cz se elige de la condición 7 € Ke. 
En efecto, es suficiente comprobar la condición (7). Tenemos 
M.T(X) = Pa(X8”/18| > 02), 
donde X8”/|8| € Pag”/18|,1, así que 
M.T(X) = 1 — D(c — 087/18). 


Esto significa que el mínimo Ma7 (X), æ € O se alcanza para a que minimi- 
za la función a8”/|8| Pero es evidente que a8” > 88” = |8|? para todos 
a. € 0», así que 
Mar(X) = inf Mar(X). < 
atoz 

Le proponemos al lector que construya el criterio minimax conforme 
a ese mismo problema, es decir, cuando X € Ba,o*, 0? es una matriz ar- 
bitraria de segundos momentos. 

3. Distribuciones degeneradas menos favorables para las hipótesis unila- 
terales. Supongamos que X € Ps, donde 8 y los elementos x; de la muestra 
X son reales. 

Supongamos además, que verificamos la hipótesis unilateral 
Hi = (0 < 01) frente a Ha = (0 > 02) siempre que haya una “zona de indi- 
ferencia” no vacía 0, < 9 < 02. ¿A qué condiciones las distribuciones me- 
nos favorables quedarán concentradas en los puntos 9, y 0? Pues en este 
caso el criterio minimax 7 de nivel 1 — e tendría una forma muy simple: 


1, si SaO > fa (Xx) 
FO) = 4 p, si f(x) = Sa (O, a) 
O, si JA) < La O, 


donde p y c se definen por la igualdad Me,r(X) = £. 

Ya sabemos que si la relación de verosimilitud es monótona, tal criterio 
será el c.u.m.p. y, por consiguiente, también será minimax. La siguiente afir- 
mación ofrece otra condición suficiente para que el criterio sea minimax. 


Teorema 3. Supongamos que la densidad f(x) posee la propiedad de 
que la relación fo (x)/fu(x) no decrece respecto a x para cualesquiera 
8'> 6. Entonces las distribución Qı y Qz menos favorables estarán con- 
centradas en los puntos 0, y 0» respectivamente, y, por lo tanto, el criterio 
(1 será minimax. 
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Demostración. Supongamos primeramente que 7 = 1. Según las condi- 
ciones del teorema, habrá a<b tales, que fo (x)/fa(x) < 1 cuando 
xel- o, al, fe (x)/f(x) = 1 cuando x€ (a, b) y fo (f(x) > 1 cuando 
x€lb, œ). Como r(x) no decrece, entonces T(b) > z(a) y 


Mo T(X) - Mor(X) > 
>TO | Yo) MON +70) | V = JAN = 
da ; 


= a(b) - ría) j Uo (x) — Soldu(dx) > 0. 


Si n > 1, para obtener esta misma desigualdad es necesario valerse de 
la integración sucesiva (primero respecto a Xı, luego respecto a xz, etc) 
y del hecho de que (X) no decrece con arreglo a cada uno de sus argu- 
mentos. 

Ahora bien, hemos establecido que la potencia 8(0) = Mox(X) es una 
función no decreciente. 

De aquí se deduce que el nivel de 7 es igual a 1-8 y que 
BO) = fea 4 B(0) y Bl02) = e B(0). Esto significa que se cumplen todas 

i > 02 


las condiciones del teorema 1. El teorema 3 queda demostado. < 

Si 9 es el parámetro de desplazamiento: fex) = f(x — 0), se puede 
mostrar que fa'(x)/fa(x) será monótona respecto a x si y sólo si la función 
—1n f(x) es convexa (véase [57)). 
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En los párrafos anteriores hemos obtenido varios resultados concernientes 
a la construcción de todo género de criterios óptimos. Una deducción im- 
portante que se puede sacar de las consideraciones citadas consiste en que 
estos criterios óptimos sólo existen en condiciones bastante limitadas. En 
la teoría de la estimación hemos tenido, aproximadamente, la misma si- 
tuación: las estimaciones eficientes también existen únicamente en condi- 
ciones limitadas. No obstante, en el capítulo 2 hemos visto que si se examina 
no la propiedad exacta de eficacia, sino la propiedad asintótica, entonces 
las estimaciones que poseen esta propiedad ya existen muy a menudo en 
condiciones relativamente amplias, relacionadas casi siempre con la regula- 
ridad de la familia (Po. Tales condiciones son las ev.m. 

Otra expresión de la optimización asintótica de la ev.m. consiste como 
hemos visto, en que las e.v.m. son asintóticamente equivalentes a las estima- 
ciones bayesianas para cualquier distribución a priori suave registrada, 

En la teoría de verificación de las hipótesis, cierto análogo de la ev.m. 
es el llamado criterio de la relación de verosimilitud (c.rw.). En caso de 
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amplias suposiciones, el referido criterio coincide con los criterios óptimos, 
si tales existen, y resulta asintóticamente equivalente al criterio bayesiano 
cuando O, = {ô} para cualquier distribución a priori suave registrada Qz 
en 02. Esta propiedad y una serie de otras propiedades asintóticas del c.ry. 
serán establecidas en los párrafos inmediatos. 

Demos la definición del crv. Supongamos que en el caso paramétrico, 
cuando X € Po, se verifica la hipótesis Hı = (0 € 01] frente a la hipótesis 
H = {06 O2). A 

Definición 1. El criterio r(X) con la región crítica 


a) 


se llama criterio de la relación de verosimilitud (c.r.v.) para verificar la hipó- 
tesis H, frente a Ha. 
La constante c suele elegirse de la condición 


ap PARO) > c) = €, 2) 


para la cual el crv. tendrá un nivel de 1 — e. 

A la par con el criterio (1) a menudo se examina un criterio que, de 
hecho, equivale al primero (también llamado crv) y que tiene la forma 
siguiente: 
sup (20 
SÓ 

sup fX sup 

061 061 

La semejanza de estos criterios se desprende del hecho de que cuando 
9 = 0,/U68», 


SAA) = máx( sup O0, RS 


y, por lo tanto, Ri(X) = máx(1, R(X)). 
Si la hipótesis Hı es simple: O, = (01), Hı = (8 #01}, así que 
O: = O N 10), entonces para fo(x), continuas respecto a 0, tendremos 


RA) = RAX) = fafo. 


Según su forma, el criterio (1) generaliza de un modo natural el m.p. 
para verificar las hipótesis simples en el lema de Neumann—Pearson. Y 
aunque en el caso general este criterio no tiene, por lo visto, exactas pro- 
piedades de optimización, a menudo resulta ser el mejor asintóticamente 
(véanse los $$ 13—16). 

Muchos criterios invariantes y minimax no desplazados, examinados 
más arriba, son los c.r. En calidad de ilustración examinemos los ejemplos 
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9.1—9,4 donde se construyeron los criterios minimax para el parámetro œ 
de poblaciones normales. En todos estos ejemplos, los criterios minimax 
son los cry. Demostrémoslo. Los problemas de los ejemplos 9.2 y 9.4 se 
han reducido, con una exactitud de hasta las transformaciones lineales del 
parámetro, a los problemas de los ejemplos 9.1 y 9.3. En vista de que la 
relación de verosimilitud (1) no depende de tales sustituciones (al variar 
respectivamente las regiones Oy), es suficiente examinar tan sólo los 
ejemplos 9.1 y 9.3. 
En el ejemplo 9.1, a base de una muestra X € ®«,g de volumen unitario 
y procedente de una población normal multidimensional con una matriz 
unidad E de segundos momentos, hemos verificado la hipótesis 
H, = [la] < a) frente a H = [jaj > b), a < b. Resultó que el criterio mi- 
nimax tiene la forma 
M>a (4 


En nuestro caso, sup f(X) se define por el valor 
91 
si S Sea dE 
ue aX — a) do e al’, 
así que para la estadística R(X) en (1) tendremos 


-40% - b}, six] < a, 
MnR(X) = -4 - o} +40% =a’, si a< |X] < b, 


-3 (X1 ay, si |X] > b. 


Esta es una función creciente continua de |X]. Por eso las regiones (1) y 
(4) coinciden para valores convenientes de c. 

Le proponemos al lector que él mismo se cerciore de que en este ejemplo 
el criterio (3) también tiene la forma (4). 

En el ejemplo 9.3, a base de la muestra X € a.g de volumen unitario, 
hemos verificado la hipótesis Hı = (|a”| < a) frente a Ha = (Ja”| > b), 
donde a” = (01+1, --., Gm) es un subvector del vector œ constituido por 
sus últimas m — / coordenadas. El criterio minimax tiene la forma 


lx" ¡>< (5) 


donde X” está constituido por las últimas m — / coordenadas del vector 
X. Pero en este caso 


inf (X- aXX — a) = 
«cor 


E =0 "AX" ~-a” 


La desigualdad análoga es válida para O. Por eso todo se reduce a las 
consideraciones del ejemplo 9.1, y los crv. (1) y (3) coincidirán con (5). 
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En condiciones del $ $, los cu.m.p. allí construidos para las familias 
exponenciales 


Lo) = TOA) (6) 


también coincidirán con los crv. El lector puede comprobar esto personal- 
mente, notando que la función 


p00) = Inc(6) = —In fe "PA(94* (dx) 


es convexa, puesto que p”(0) = — MoT, p”(6) = — DeT < 0. De la convexi- 
dad de p se deduce la solubilidad unívoca de la ecuación 


p(0) + TA) =0 


para la ev.m, Ó* = ẹ(T) y la monotonía de la función p. En este caso, uno 
de los sup fa(X) se alcanzará en el punto é*, y el otro, en los puntos 0; 
o 02 

La verificación de la referida afirmación para las familias normales 
Baz, que son un caso particular de (6), se expone en el $ 15, 

Es algo diferente el asunto examinado en el ejemplo 9.5, donde, de 
acuerdo con la muestra X € Pr hemos verificado la hipótesis 
Hı = (a = 0) frente a Hz = (a € 02). Se supone que el conjunto O y 
su clausura convexa O no contienen puntos a = 0. Si el punto $ más próxi- 
mo al origen de coordenadas del conjunto Oz pertenece a 62, entonces 
el criterio minimax existe y tiene la forma siguiente: 


XBT > c Y) 
Este criterio no es invariante respecto a cualquier grupo de transforma- 
ciones. Le proponemos al lector que él mismo se cerciore de que en este 
caso el crv. es distinto de (7) y tiene la forma 
eè (X, 01) - NX, 0) < c 
donde e(%, 02) = inf |X- al, e(X, 0) = x1. 
«cz 
Ahora demostraremos que cuando se cumplen ciertas suposiciones, el 
criterio de la relación de verosimilitud posee propiedades de invariación. 
Sea G cualquier grupo de transformaciones en 2”, respecto al cual el 


problema de verificación de las hipótesis Æ: y H2 es invariante, y sea G 
el grupo respectivo de transformaciones g en ©. 


Teorema 1. Si fo(x) posee la propiedad 
Solex) = cle, fz), (8) 


entonces el criterio de la relación de verosimilitud es invariante respecto 
aG. 


368 CAP. ). TEORÍA DE VERIFICACIÓN DE HIPÓTESIS 


En cuanto a la condición (8) diremos que la misma siempre se cumple 
cuando a es la medida de Lebesgue, y g, la transformación que conserva 
esa medida (desplazamiento y giro). En este caso c(g, x) = 1. Para las trans- 
formaciones de contracción, c(g, x) = const. 

Demostración del teorema 1. En virtud de que gO; = O; i= l, 2, 
tendremos 


sup Flex) sup c(g, x)fzo(x) sup fo(x) 
0.02 02 LALL 


RED od sup c A sup O 
001 81 0501 


=R(). < 


Otras propiedades del c.rv. véanse en los $$ 11, 13—16. 


$ 11% Análisis sucesivo 


1. Observaciones preliminares. En todos los planteamientos anteriores, el 
volumen n de la muestra X = Xn, de la cual disponemos, estaba registrado. 
En tales condiciones hemos hallado criterios que poseían unas u otras pro- 
piedades de optimización. Por ejemplo, en el caso más elemental, cuando 
se verificaban dos hipótesis simples M; = {X € Pi) į = 1, 2, resultó que 
existe un c.m.p. de nivel 1 — e, el cual tiene la forma (véase el teo- 
rema 2.1) 


1, si 400 > 400, 
HA) = 4 psi JA) = NO, 
0, si A) < AW. 


Aquí c y p se deducen de la condición MiT(X) = e, y fi(x) son las densida- 
des de las distribuciones P;, i = 1, 2, respecto a cierta medida y. 

¿Será posible mejorar ulteriormente este procedimiento estadístico? En 
las condiciones enunciadas claro está que no es posible. Pero si desistimos 
en registrar el volumen de la muestra, o sea, si procedemos a que el número 
de observaciones n sea una variable aleatoria dependiente de las observa- 
ciones ya realizadas, entonces los mejoramientos son posibles. Se tiene en 
cuenta la reducción de la cantidad de observaciones indispensables para 
construir los criterios a base de ciertos parámetros dados. Esta circunstan- 
cia es importante en los experimentos donde la ejecución de ensayos ofrece 
gastos considerables. 

La posibilidad de tal mejoramiento de los criterios puede ser aclarada 
citando el ejemplo siguiente. Supongamos que las distribuciones P; y Pz 
no son del todo reciprocamente continuas, y supongamos también, que 
existen conjuntos Bı y Bz de VB tales, que fi(x) > 0, f(x) = 0 cuando 
xE B, y fi(x) = 0, f(x) > O cuando xé B. Entonces está claro que si 
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Xı € Bı (x1 € B2), podemos afirmar infaliblemente que tiene lugar la hipóte- 
sis Hı (F2). En este caso no hay ninguna necesidad de llevar a efecto las 
observaciones posteriores. 

Ahora bien, si los experimentos se realizan no de una vez (en cantidad 
de n), sino sucesivamente, examinando el resultado de cada nueva serie de 
observaciones, entonces es posible reducir el volumen general de observa- 
ciones. 

La introducción del procedimiento sucesivo también es muy natural des- 
de el punto de vista del enfoque bayesiano. En efecto, el referido enfoque, 
examinado en el $ 2, prescribe aceptar la hipótesis Æ si la probabilidad 
a posteriori q(2/X) de esta hipótesis >1/2. En este caso, en el conjunto 
crítico se encontrarán, entre otras, tanto muestras X para las cuales q(2/x) 
es próxima a 1 (para tales X, la aceptación de Hz es oportuna), como 
muestras X para las cuales q(2/X) es próxima a 1/2. Estas últimas podrían 
considerarse como muestras “insuficientes” para tomar decisiones y las 
cuales requieren experimentos adicionales. Además, al igual que en el 
ejemplo expuesto más arriba, la probabilidad a posteriori q(2/X) puede 
resultar grande ya después de las primeras pruebas, y entonces se podría 
tomar decisiones sin efectuar pruebas posteriores (en el ejemplo menciona- 
do, q(2/X) = 1 cuando X = xi € B> para cualquier distribución a priori 
(401), 4), a(2) > 0). 

Más abajo examinaremos el procedimiento sucesivo para verificar dos 
hipótesis simples, en el cual se alcanzará la reducción máxima posible de 
la cantidad de observaciones. 

2. Criterio sucesivo bayesiano. Examinemos primeramente el plantea- 
miento bayesiano del problema y designemos por 4(1) = q y q(2) = 1 - q 
las probabilidades a priori de las hipótesis Æı y H2. Entonces, la probabili- 
dad a posteriori de la hipótesis Æ; después de las observaciones X = X, 


será igual a 
AAA mm 
ADAC + ADAC 


Realizaremos sucesivamente las observaciones y para cada » calculare- 
mos los valores de g(2/X»), n = 1, 2, ... (o de q(1/X,)). En el plano de 
las variables (n, y) examinaremos la trayectoria aleatoria de las probabilida- 
des a posteriori (quebrada aleatoria), que parte del punto g = q(2) cuando 
n = 0 y que toma, en los puntos n = 1, 2, ..., los valores de y = q(2/Xa). 
Con ayuda de esta trayectoria se puede construir el siguiente criterio para 
verificar la hipótesis A, frente a Æ2: examinemos en el plano (7, y) dos 
fronteras rectilíneas y = yw ¿=1, 2 0<y<y<1 para la variable 
4(2/Xn). Se acepta la hipótesis Hz si la trayectoria q(2/X,), n = 0, 1, 
sale por primera vez de la franja (yı, z a través de la frontera superior 
yz- Si la trayectoria q(2/X), n = 0, 1, ..., sale de esta franja a través de 


24—8030 


qli/Xn) = 
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la frontera inferior yı, entonces se acepta Hı. Más adelante veremos que 
la P;-probabilidad (i |, 2) de que q(2/X.,) nunca saldrá de la franja (y1, 
1), o sea, la probabilidad del suceso 


lm<4Q/X)<wn,2n=0,1, ...) 


es igual a cero. 

El número de pruebas y que se necesita para aceptar una de las hipótesis 
(o sea, para alterar las desigualdades (2)) es, evidentemente, variable aleato- 
ría markoviana (momento de parada) respecto a la sucesión xı, X2, ... 
para cada una de las distribuciones Pı y Pz. Desde este punto de vista, 
dicha regla de aceptación de las hipótesis es sucesiva y concuerda bastante 
bien con las reglas conforme a las cuales actúa el hombre en su actividad 
práctica: tomar una u otra decisión después que las observaciones permitan 
reducir en sumo grado la incertidumbre que tiene lugar con respecto al 
objeto sometido a examen. 

El criterio construido depende de q = q(1) y del vector y 
Por eso, designémoslo por ôg, y. Ahora establezcamos que el > 
es óptimo. Con este fin introduzcamos primeramente el concepto general 
de criterio sucesivo, cuyas características esenciales, a la par con las proba- 
bilidades de los errores de primero y segundo genero, se convierten en los 
valores medios Mı» y Mz» para el número de observaciones » necesarias 
para tomar decisiones. 

Supongamos que en (2”, V$) se da una variable aleatoria entera ar- 

bitraria v >0 que es markoviana respecto a la sucesión X1, X2, 
(lr >n} Eol, -.., Xa) = B4). Designemos por 2” el espacio de los 
vectores (11, Xn) tales, que v(Xco) = n, Xn = [Xo]». Introduzcamos en 2” 
la o-álgebra de VB” engendrada por los sucesos (» = n, Xn € B”), B” € Bin 
n=0, 1, .... Está claro que cualquier distribución en (2; Bo) (o en 
(2”, BZ) induce la distribución respectiva en (2”, 8’). 

Definición 1. Llámase criterio sucesivo 5 para verificar Hı frente a Hz, 
el par (v, 2), donde Q € Y” es la región de aceptación de Hz (región crítica), 
y la variable aleatoria y se supone que es propia respecto a ambas distribu- 
ciones Pi, Pz (P(» < œ) = 1, i = 1, 

En los casos cuando sea necesario señalar que v y Q pertenecen al crite- 
rio ô, escribiremos »(ô) y Qô). 

Es natural que, de un modo equivalente, el criterio sucesivo puede ser 
designado con ayuda de una función biforme medible en :2”. También está 
claro que el criterio sucesivo ô puede ser designado mediante la construc- 
ción de la región crítica (volvamos a designarla por 9) en todo el espacio 
27”. Sin embargo, con tal aplicación (en 2”) de las regiones Q y Z” N Q 
de aceptación de las hipótesis H2 y Hı, no obtendremos obligatoriamente 
todos los elementos de 2”: en aquellos de ellos para los cuales »(Xw) 
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no se acepta ninguna hipótesis. Pero según la definición de la Pi-pro- 
babilidad, los conjuntos de tales X equivalen a cero. 

El criterio no randomizado ordinario ô es un caso particular del criterio 
sucesivo, cuando »(5) = n es constante (si »(5) = 0, entonces la decisión 
se toma sin realizar ensayos). 

El criterio sucesivo ó, al igual que cualquier criterio ordinario para veri- 
ficar dos hipótesis simples, se caracteriza por las probabilidades a;(ô) de 
errores de ¡-ésimo género ( = 1, 2): 


alô) = P(v, X.) $0), 


donde h = 9, Nı = 2” N h. Además, como ya hemos señalado, caracteri- 
zaremos el criterio sucesivo por los valores medios Mi», į = 1, 2. Es evidente 
que para el criterio ordinario ô, construido según la muestra Xn, se cumple 
Muv(5) = n. 

Para tomar en consideración la aparición de estos nuevos factores en 
el planteamiento del problema (o sea, de las características relacionadas 
con la magnitud »), supondremos que la realización de cada observación 
necesita gastos de valor a. También será cómodo caracterizar las pérdidas 
que surgen al tomar decisiones incorrectas, por medio de distintos valores 
de w; y w. Es decir, consideraremos que las pérdidas de i-ésimo género 
que surgen al tomar decisiones erróneas, cuando es cierta H;, equivalen 
awi=1,2 

Con estos acuerdos, la esperanza matemática R(g, ô) de las pérdidas 
que surgen al utilizar el criterio ô, es igual a 


R(q, 8) = qla(5)m + aMiv(8) + (1 — g)laz(ö)wz + aMav(ó)1. (3) 


Esta expresión se denomina riesgo bayesiano en el problema sujeto a 
examen. Si aquí suponemos que a = 0, w, = wz = 1, obtendremos la expre- 
sión para la probabilidad de una decisión errónea del criterio ô, la cual 
ya hemos utilizado repetidas veces en los $8 1, 2. 

Definición 2. El criterio sucesivo ô que minimiza el riesgo bayesiano 
(3) se denomina criterio sucesivo bayesiano. 

La siguiente afirmación establece la optimización (carácter bayesiano) 
del criterio ô., construido al principio de este párrafo. 


Teorema 1. Para a, wi, wz dados existen yı, ya tales, que el criterio 
S4,y es bayesiano. 

Demostración. Designemos por ô; el criterio que acepta la hipótesis H; 
sin realizar pruebas, así que »(3;) = 0, œ(ô:) = 0. Aclaremos primeramente 
en qué casos el criterio ô, que minimiza R(g, ô), coincide con á, o con 
ôr. Es evidente que 


R(, 61) = (1 — q)m, R(, d2) = qm. 
ue 
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Sea K la clase de criterios ($ = 5(X)) que dependen al menos de una obser- 
vación, o sea, la clase de criterios ô para los cuales »(ô) > 1. Es evidente 
que R(g, ô) > a para ¿€ K. Designemos 


R(g) = inf R(a, 8). 
tK 


Como el criterio 6, basado en una sola prueba (»(ô) = 1), pertenece a K, 
entonces R(q) < «o. 

Para cualquier p € (0, 1) tenemos, en virtud de la linealidad de Ra, 
$) como función de g: 


R(pqı + (1 pq) = inf IoR(qr, 5) + (1 — pP)R(Q, 5) > 


> pR(ar) + (1 — PyR). 


Esto quiere decir que R(q) es una función cóncava. En vista de que 
a < R(g) < <o, de aquí se deduce que R(q) también es una función conti- 
nua en (0, 1]. Comparemos ahora los riesgos de los criterios ôi y ¿€ K en 
función de q (véase la fig. 5). 


Rd Ri, $a) 


Una de dos: o bien R(q) > mín R(q, ô) para todos q (esto correspon- 
de al hecho de que e) > 24%, o bien existen soluciones 
w +w w +w 
de las ecuaciones R(g, 61) = R(g), R(q, 62) = R(q), que designaremos 
l=w l- yn 1-1 >1-y, respectivamente. Es evidente que 
R(g) < mín R(g, &) dentro del intervalo (1 — y, 1 — 11). Para la primera 
de las posibilidades mencionadas supongamos 
w 
lepate a E” 
así que 
RU — y, 51) = RU — yı, d2). 
De los referidos razonamientos y de la fig. 5 se deduce la siguiente regla 
óptima de acciones. A base de los datos a, wi, w calculamos } = yn 
1 — y. Sig < 1 — y2 0 bien, que es lo mismo, 1 — q > y2, el menor riesgo 


4 11, ANÁLISIS SUCESIVO 373 


entre todos los criterios lo proporciona ô, (o sea, es necesario aceptar inme- 
diatamente H2). Si q > 1 — y (1 — q < yı), entonces ó1 ofrece el menor 
riesgo (es preciso aceptar Hi). Y sólo en el caso de 1 — y <1-— y, 
q €(1 — n, 1 — y) (o bien 1 — q € (yı, 72) es necesario utilizar el criterio 
de K, o sea, hay que realizar el experimento. 

Ahora aprovechemos la inducción. Supongamos que se han efectuado 
n observaciones y que disponemos de la muestra Xn. Antes de la observa» 
ción n + 1 tenemos la misma alternativa: no realizar más observaciones 
y aceptar una de las hipótesis H;, o bien continuar las observaciones. El 
hecho de que ya hemos sufrido las pérdidas an no desempeña ningún papel, 
ya que éstas no pueden ser eliminadas de ningún modo. Los cambios esen- 
ciales sólo están relacionados con la distribución a priori. Ahora el papel 
de probabilidades g(1) = q y q(2) = 1 — q deben desempeñarlo las proba- 
bilidades a posteriori q(1/X), q(2/X»). Con arreglo a esta nueva situación, 
la regla óptima ya elaborada por nosotros, dice que es necesario aceptar 
Ha si q(2/X5) > ya, y El si qQ/X,) < y. Si q(2/Xn) € (yı, y2), entonces 
conviene continuar las observaciones. Pero la regla obtenida no es otra cosa 
sino el criterio ôy. Ahora bien, hemos hallado yı = yi(a, w1, w2) que pose- 
en la propiedad de que el criterio ô, minimiza el riesgo R(g, ô). < 

Nótese que los números yi(a, wi, wz) permanecen invariables al multipli- 
car a, ws, wz por un mismo número: esto es evidente de su definición, ya 
que tal operación sólo conduce a que todos los riesgos R(g, ô) sean mul- 
tiplicados por ese mismo número. Así pues, en realidad y; es una función 
de dos variables, por ejemplo, de a y w si consideramos que w = 1 — wi. 

¿Qué representa en sí el criterio bayesiano 8,,? El mismo prescribe no 
realizar observaciones en dos casos: cuando yı = y2 (lo cual sucede en caso 
de que a es grande en comparación con wi, wz), o bien cuando 4(2) < yı 
o cuando q(2) > y2. En los demás casos es preciso realizar experimentos 
hasta la primera alteración de las desigualdades 


N < qQ/X.) < y 


o bien, que es lo mismo, (véase (1)), hasta la primera alteración de las des- 
igualdades 


O Aa) va) 
000 FA AAN {a 


En este caso se acepta la hipótesis A si por primera vez se altera la desigual- 
dad derecha, y la hipótesis H si se altera la desigualdad izquierda. En tal 
forma, la parte “variable” del criterio ô, ya no está relacionada con el 
planteamiento bayesiano del problema y podemos, designando por T'i, I 
las fronteras izquierda y derecha en (4), examinar el criterio sucesivo ôr, 
T = (T, T2) que se llama criterio sucesivo de la relación de verosimilitud. 
Fue Wald quien lo introdujo por primera vez. 
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3. Criterio sucesivo que minimiza el número medio de pruebas. 

Teorema 2. Sea T, < 1 < T2. Designemos por o; y œ las probabilidades 
de errores de primero y segundo género del criterio ôr. Entonces, entre to- 
dos los criterios sucesivos ô, para los cuales (5) < «1, a2(5) < an, el crite- 
rio ôr tendrá los menores valores de Miv(8) y M2v(8). 

Este teorema significa, en particular, que si ô es un criterio construido 
según la muestra X, de volumen registrado, para el cual o1(0) < a, 
ca(d) < az, entonces 


Mur(dr) < 7, 1,2. 


Demostración. El criterio bayesiano 3z,,, examinado en el teorema 1, 
se determina por el conjunto de números (q, a, wı, wz). Pero, como ya 
hemos señalado, la multiplicación de a, w,, wz por un mismo número no 
altera las fronteras y», así que, de hecho, óz, se determina a base de tres 
parámetros, por ejemplo, (q, a, w) si se toma w = w y w = 1- w. 

Si partimos de este acuerdo, en el teorema 1 hemos construido, a base 
de los valores dados de (a, w), los números y, = yi(a, w) para los cuales 
el criterio $, , es bayesiano. Ahora necesitaremos, en cierto sentido, la afir- 
mación inversa acerca de que para los valores dados de yı, yz existen a, 
w tales, que yi(a, w) = yi, O sea, tales a, w, para los cuales el criterio 6y,y 
será bayesiano en el problema correspondiente al conjunto (q, a, w). Esta 
afirmación tiene carácter técnico y se demuestra de un modo bastante 
complicado (véase [57)). Por eso la aceptamos como tolerable”, 

Así pues, examinemos el criterio ôr, y para el valor dado de g hallemos 
yı de las ecuaciones 


„i u 
a- wW- q) 
Para los valores obtenidos de y: =Ti(1 — 9)//(T KI — q) + q) hallemos a, 
w con los cuales el criterio ôy será bayesiano en el problema que corres- 
ponde al conjunto (q, a, w). Como P, < 1 < Tz, entonces y < 1 — q < y2 
y »(ôz) > 1. Esto significa que áq,, = ôr. 
Sea ahora ô cualquier otro criterio para el cual œ(ô) < ou. En vista de 
que el criterio ó¿,, = ôr minimiza el riesgo bayesiano, entonces 


D. 


qlo w + aMiv(ór] + (1 — g)loa(l — w) + aMzv(ôr)] < 
< qloi{ô)w + aMiv(5)) + (1 — glo — w) + aMav(9)]. 


© Aqui tampoco demostramos otra afirmación útil acerca de que para las Pi- 
-distribuciones continuas de la magnitud f¿(0/f:(X), y para todos los valores dados de 
a habrá Fi, Tz tales, que au($r) = en, aar) = a Por su esencia esta afirmación se asemeja 
a los lemas 6.1 y 7.1, pero su demostración es más difícil. 
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De aquí resulta 
¿Miv(br) + (1 — q)Mav(ór) < qMı»(ö) + (1 — q)M2(5). 
Como el número q € (0, 1) aquí es arbitrario, entonces 
Miv(ôr) < Mi(5), Mar(ór) < Mar(ô). < 

Aquí hemos utilizado, para la demostración, el mísmo método de com- 
paración con los criterios bayesianos que habíamos empleado en los 
$5 1, 2, 5. 

Examinemos algunas propiedades del criterio ör. Designemos por Q? 
los subconjuntos de 2™ que se definen del modo siguiente (Xr = [X]r): 


at= [xa m <A) cr k=l.. na A <m). 


AX SKa) 


El conjunto 9f se define del mismo modo, pero la última desigualdad debe 
sustituirse por f2(Xn)/fi (Xn) > T2. Es evidente que 27 son disjuntos, pues 


M= U fes la región de aceptación de Hi, 


v(ôr) = n en la región {x €2™:x € 07), 


a POD È f was 


z 
<È | Ad) = Uan. 9 
"ln 
Análogamente se establece que 
oalr) < Di0 — an). © 


Pongamos, para abreviar, au(ór) = ay. El grado de exactitud de las desigual- 
dades obtenidas 
= a a 
E PR. 
a Sog m 
lo examinaremos más adelante. Ahora aclararemos las propiedades del cri- 
terio que obtendremos si hacemos uso de las relaciones (7) en calidad de 
base para determinar I; por los valores de œ; dados. Si ponemos 


m< 


0 $ IO 
r= E + E, a e alr), 
entonces para el criterio obtenido ór- tendremos, en virtud de (7), 
ES $ le ¿l-e 


A, (8) 


I-a "Toa? a E 
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De aqui resulta 


all - aś) 


l-al 
R Us all — aj) o 


l- œa T-a 


<< 
= 


Reduciendo las desigualdades (8) al denominador común y sumándolas, 
obtenemos asimismo 


aí + af <a + o. 


Ahora bien, si a; son pequeños, el criterio ôr- tendrá los valores de af 
cuya suma no excede ar + as, y cada a/ puede superar ay sólo insignifican- 
temente y dentro de los límites que conocemos. 

Ejemplo 1. Supongamos que x; tiene una distribución binomial con una 
probabilidad de éxito p. El problema consiste en verificar la hipótesis 
Hi = {p = ps) frente a Ho = {p = pa), pi < pa. En este caso 


AO EU- (ma NG -üy 
AO wa- PU — pa) T=p)” 
donde nn es el número de casos favorables (éxitos) en n pruebas. Para los 
valores pı = 0,05, pz = 0,17, œ; = 0,05, œz = 0,10 obtenemos” T; = 0,105, 
T4 = 18, œ = 0,031, œ = 0,099. 
Miv(ór-) = 31,4, Mz2»(ôr-) = 30,0. 


Por otro lado, el procedimiento con un volumen fijo de la muestra y con 
probabilidades de los errores de primero y segundo género correspondientes 
a 0,05 y 0,10, respectivamente, requiere n = 57 observaciones. Ahora bien, 
en este ejemplo el procedimiento sucesivo reduce casi el doble el número 
medio de observaciones. 


4. Cálculo de los parámetros del mejor criterio sucesivo. Las relaciones (7) y (8) dan 
la posibilidad de establecer cierta correspondencia entre la frontera I y las probabilidades 
de los errores cu(br). Ahora examinemos más detalladamente el problema de cálculo del crite- 
rio ôr. 

a) Fórmulas exactas. Designemos 

o p fia) 
Si) 


Amnis 


skakao 


En este caso el criterio ôr puede adquirir la forma siguiente: si Ay < O < 42, entonces los 
experimentos se realizan sucesivamente, y los valores zx independientes e igualmente distri- 


buidos se suman hasta que Zs = J, zu toque por primera vez una de las fronteras Ay, Si 
a 
es cierta la hipótesis Hz, la divagación descrita será dirigida, por término medio, hacia arriba, 


% Los datos numéricos se han tomado de [57], p. 143. 
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ja que 
r Ao) 


H 


(véase el lema 2.6.1). De un modo análogo se determina que Mizı = — @:(P:, Pa) < 0. 
Si Jas fronteras A, se alejan a partir del origen de coordenadas, esto corresponde (compá- 
rese con (5) y (6)) a la reducción de los errores de primero y segundo género. 
Los conjuntos NF en los términos de divagación (Z+] tendrán la forma 


0i = (Ai < Zk < Az, k= l, .. N= N, Za > Arh 
Los conjuntos 07 tendrán una forma análoga. 
Designemos por n(1) la variable aleatoria igual al tiempo de la primera salida de la divaga- 
ción aleatoria Zo = 0, Zi, Zz, -.. fuera de la frontera de tz 


> = Uk: Ze > t) para £> 0, 


“Aalx)aldx) = e(P:P1) > 0 


mín (k: Ze < £) para £ < 0. 
Es el proceso de reconstrucción que corresponde a la sucesión [Zx] (véase {11}, capitulo 8). 
Las diferencias x(41) = Zyu) — A: serán los valores de excesos (saltos) a través de los niveles 
A, en la divagación (Ze] (véase (11). 

Para la probabilidad de error de primer género ahora podemos escribir 


PEDIDO f s Aod) = 
0 gra 


0) Time 0, 0) 


donde M = (J 0} es la región de aceptación de H. Análogamente 


az(ôr) = Mae, 0, m Un. (10) 
a 
Seguidamente, para los valores de Mi», ï 
de Wald, obtenemos M4Z,) = MiMi», i = 1, 2. 
Como Z, = Az + ala) en el conjunto Q, Z, = A, + x(41) en el conjunto M, entonces 
Mr = L loz + MitxtAa); 0) + (1 — ai)A + Milo): MN 


i 
ha 


2, » = v(br), en virtud de la identidad 


Mar = yz E T A + Malo) 5) + 091 + Maio); M) w 
En varios casos los segundos miembros en las fórmulas (9) —(11) pueden ser determinados 
de forma explícita. Estas fórmulas también resultan muy útiles en los cálculos aproximados. 
b) Fórmulas (para A, y Ax grandes) y desigualdades aproximadas. Ya hemos señalado 
que los grandes valores de |A; = 1, 2 corresponden a pequeñas probabilidades de errores 
axór). Examinemos el valor 


olr) = Ps 2> 42) =P, 
ran 


sup Za > 4a) = 


-Pi( sup Z <An sup Z>). (12) 
wéra rayan 
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Aquí el último sumando no supera, en virtud del carácter markoviano de Ja variable 

aleatoria n(1), los valores 
Pi( sup (Ze Zuo)) > Az — Zaan) < Pi(sp Zi > A: = Ai) 
or ezo 
Como en casi todos los casos prácticamente interesantes, la probabilidad 
u(A) = Pi(sup Ze > A) decrece exponencialmente con el aumento de A Avéase, por ejemplo, 
420 
132), t. 2. Esto mismo se puede deducir del capítulo 10 en [11], donde se exponen los métodos 
de cálculos de u(A)*)), entonces, para |A;| grandes, el valor de (4 — As) tendrá un orden 
más alto de pequeñez que (42). Esto significa, en virtud de (12), que 
and) = Pi (sup Ze > A2) = ufa), a» 
kao 

asi que, para grandes A, y Az en (12), la segunda frontera puede ser omitida. Exactamente 
igual obtenemos la aproximación 


abr) ~ Ra( inf Ze < 41). as 
t>o 
Si |A4 son grandes y œ; pequeños, los miemboros principales en (11) proporcionan 
Ar Ar 
Mw = . a . 15) 
Ma o Maa 93; 


Estas fórmulas también se basan en la omisión de la segunda frontera (ellas también 
pueden obtenerse mediante las aproximaciones Mu» = Min(A;) = A;/M;zı. La última relación 
tiene lugar en virtud del teorema de reconstrucción ([11]). 

Teniendo en cuenta los términos siguientes, segun su orden de pequeñez en (11), ob- 
tenemos 


Mw = az (Ar + ald: — Ar) + Mixi), 


E 
1 (16) 
Mar = (A1 + n(A — A1) + Moa), 
Mazı 
donde a, se definen por las aproximaciones (12) y (13), los valores My = lim Mx(A) 


Ml 
pueden ser determinados por los métodos descritos en el capítulo 10 en [11]. 
Examinemos ahora las desigualdades (8). Como x(4,) < 0, x(4) > 0, estas igualdades 
se deducen de (9) y (10) si x(41) se sustituye por O. Consiguientemente, la exactitud de tales 
desigualdades depende del error originado por dicha sustitución. 
Si las variables aleatorias z están limitadas, bı < zı < Da, es evidente que x (42) < Da, 
x(41) > bi, y además de (5) y (6) pueden escribirse las desigualdades inversas. Es decir, 


xa), 


caló) = TF Ma, Qa) > 050% — on). 


ià un 
antr) > Piel — an). 


A fin de ilustrar las relaciones obtenidas, volvamos a examinar el ejemplo 1. Para éste, 


HA 
P0 — pò L-» 
donde na es el número de casos favorables en n pruebas. Esto quiere decir que zı, para la 
P-distribución, adopta el valor de bz = In (p3/p,) = 1,224 con probabilidad py, y el valor de 


* Esto se expone más detalladamente en |9}. 
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Pè - — 0,135 con probabilidad 1 — pi, i = 1, 2. De aquí obtenemos 


Mizi = — 0,067, Maz, = 0,096, e” = 3,400, e* = 0,874. 


De los dos últimos valores sólo el segundo es próximo a 1, así que será relativamente 
exacta tan sólo la segunda igualdad de (17). Utilizando esta desigualdad en (7) para el criterio 
ôr, obtenemos 


rí< ERA = 0,17. 
ape 
Esto proporciona fronteras bastante exactas para el valor de Tí = 0,105. En nuestro caso 
Aj = InP} = -2,254, Az = InT¿= 2,890. 
De aquí, utilizando las fórmulas aproximadas (15), obtenemos para Mi»”, į = 1, 2, los 
valores 


0.102 = 2 
Ts 


A¡/Myz = 33,639, Aj/Mazs = 30,108. 


Vemos que incluso aproximaciones que están lejos de ser precisas, tales como (15), dan 
una noción correcta de las magnitudes Mp” . Los resultados serán mucho más exactos si hace- 
mos uso de las fórmulas (16). 


$12, Verificación de las hipótesis compuestas en el caso general 


En este párrafo no vamos a suponer que la muestra pertenece a cualquier 
familia paramétrica. 

El problema de verificación de dos hipótesis en el caso general tiene 
la forma siguiente. Sean % y Z, dos familias de distribuciones tales, que 
la distribución P de la muestra X pertenece a % US. Se verifica la hipóte- 
sis Hi = (X € P,P€3) frente a Ha = [X € P, PEZ) El principio gene- 
ral de construcción del criterio (no randomizado”) r(X) = 6(X) aquí 
queda igual que antes, tal como fue descrito en el $ 4 para el caso para- 
métrico. Se construye precisamente el conjunto crítico R C 2” (que a me- 
nudo se identifica con el concepto de criterio) tal, que aceptamos Hz 
cuando X€N, y aceptamos Hi; en el caso contrario. El número 

teg pa P(x40) 


se llama nivel de importancia del criterio. La magnitud 
BP) =P(XEN), PER, 
es el valor de la potencia del criterio x en el “punto” PEA. 
Cuando el conjunto 2, de alternativas P es muy abundante, en estas 
condiciones es muy difícil o incluso imposible comparar las potencias B(P) 


% Para mantener la uniformidad de las designaciones, en lo sucesivo designaremos los 
criterios estadísticos con el símbolo x, aunque dentro de los límites de este capítulo se tratará, 
por lo general, de criterios no randomizados 
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de los criterios w y construir los criterios óptimos. Las minimas exigencias 
planteadas ante los criterios, en este caso consisten, por lo general, en que 
para cada P€% registrado se cumpla 

lím BP) = 1. 


Definición 1. El criterio x que posee esta propiedad se denomina criterio 
conciliable. 

La esencia de los criterios sometidos a estudio, al igual que de todos 
los criterios estadísticos, corresponde al principio fundamental de la esta- 
dística matemática, del cual ya hemos hablado en los párrafos 1.4 y 2.31. 
Si e es pequeño, entonces, al cumplirse la hipótesis H, y al utilizarse muchas 
veces el criterio construido de nivel 1 — e, nos equivocaremos (o sea, caere- 
mos en la región crítica), por término medio, sólo en el 100 £% de todas 
las pruebas. Por lo tanto, en caso de cumplirse la hipótesis Æi, considera- 
mos prácticamente imposible la caída en esa región al realizar una sola 
prueba. Consiguientemente, si a pesar de todo caemos en ella, eso significa- 
rá que la suposición hecha no es cierta y anunciamos que la hipótesis Hi 
no es verdadera. En este caso se dice que los resultados del experimento 
no concuerdan con la hipótesis Hi desde el punto de vista del criterio de 
nivel 1 — e, 

Están muy difundidos los criterios de verificación de la hipótesis simple 
Hi=(X€P;) frente a la hipótesis alternativa compuesta H = 
= {X € P xP); la hipótesis H significa que X es una muestra de la 
distribución arbitraria P 4 P} 

La construcción de los criterios para verificar la hipótesis simple 
Hı = (X € Pı) suele basarse en el “alejamiento” de la distribución empíri- 
ca Ph respecto a la distribución P, desde el punto de vista de cierta “distan- 
cia” d(P, Q). La propiedad deseable de esta distancia consiste en reducir 
(P, Q) a cero sólo cuando Q = P, y en transformar la continuidad d(P, Q) 
en el “entorno” del punto Q = P, por ejemplo, en la métrica uniforme (de 
lo contrario las pequeñas desviaciones de Q respecto a P pueden conducir 
a grandes valores de la distancia d). Recordemos que en el caso paramétrico 
hemos utilizado consideraciones análogas al construir las estimaciones del 
parámetro desconocido aplicando el método de distancia mínima. 

Así pues, sea d(P, Q) cierta distancia (no obligatoriamente métrica) en 
el espacio de distribuciones. Supongamos que a partir de e > O dado se 
puede hallar tal ¢ > 0, para el cual 

Pi(d(P1, På) > ©) = e 

Entonces el criterio se construye del modo siguiente: 
= [0 si dP, Ps) <c, 

=) i en el caso contrario. 
Evidentemente, v es un criterio de nivel 1 — €. 
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Al igual que en el $ 3, se puede introducir un criterio de nivel asintótico 
1 — e para el cual 
lím P(d(P,, P3) > c) = £ a 


Los criterios descritos suelen llamarse criterios de aceptación (suponien- 
do que {X € P,)). Análogamente, su estructura también puede ser repre- 
sentada de una forma algo diferente. Supongamos que tenemos una 
funcional G(P) (o una sucesión de funcionales Gn(P) tal, que 
G(P) + G(P¡) cuando P # P; Entonces podemos poner m(X)=1 si 
1G(P5) — G(P1)| > c, y T(X) = 0 en el caso contrario, donde c se elige 
partiendo de las mismas consideraciones que en (1) y (2). No es difícil 
comprobar que este segundo enfoque es equivalente al primero, puesto que 
a partir de la funcional G se puede construir la distancia 
d(P, Pı) = 1G(P) - G(P1)| (compárese con el principio de sustitución en 
la teoría de estimación), y al contrario, a partir de la distancia d(P, P1) 
se puede construir la funcional G(P) = d(P, P1) (G(P1) = 0) que satisface 
las propiedades requeridas. 

Si en la estructura descrita, la funcional G posee, además, la propiedad 
GPR) > G(P) cuando X € P (esto siempre es así cuando G es una función 
de primero o segundo tipo (véase el $ 1.3)), entonces el criterio construido 
será conciliable. En efecto, en este caso el número c = c(n) que asegura 
la igualdad (2) debe convergir a cero (P1(1G(Px) — G(P1)1 > €) — 0 para 
cualquier 8 > 0) y, por lo tanto, tendremos G(P5) -> G(P), P(1G(P5) — 
= G(P,)1 > c(n)) > O para cada P # P, registrado. 

Examinemos ahora algunos criterios de aceptación bien conocidos que 
son la realización del enfoque descrito anteriormente. 

a) Criterio de Kolmogórov. Examinemos la estadística (distancia) 

D,,P5) = sup IFRC) — F(O!, 


donde F% (t) y F(t) son las funciones de distribución que corresponden a 
las medidas P; y P,. En el $ 1.8 hemos establecido que si F(+) es continua, 
X €P, entonces 


dia, PA) = Va D(Ps, Pi) = sup IO l, 


donde w°{r) es el puente browniano. De aquí se deduce el 
Teorema 1 (A.N. Kolmogórov). Si F(f) es continua, entonces existe 


lím P.(dx(P,, P 5) < x) = K(x) = P sup Iw*(1)l < x). 
n ar 
La función K(x) se puede hallar en forma explícita. La misma es igual a 
K0= È neon, 
pea 
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Con ayuda de este teorema se pueden construir los criterios de nivel 
asintótico 1 — æ. La función K(x) está tabulada en muchos manuales de 
estadística matemática. Por eso, para £ dado podemos, mediante tablas, 
hallar una constante c = c para la cual K(c) = 1 — e. Poniendo r(X) = 1 
cuando de(P,, Ps) > cz, obtenemos el criterio de aceptación de nivel asin- 
tótico 1 — e. Es fácil notar que el criterio obtenido es conciliable, ya que 
la funcional G(P) = sup 1Fr(1) — FU)! (aquí Fr(í) = P((— œ, 1))), con 

i 


cuya ayuda se ha construido el criterio de Kolmogórov, es continua respecto 
a Fp en la métrica uniforme y, por consiguiente, es una funcional del tipo 
II (véase el capitulo para la cual G(P) z G(P) cuando X € P. Queda hacer 
uso de las observaciones hechas anteriormente sobre las condiciones de 
conciliabilidad de los criterios de aceptación. 


Con ayuda de los resultados del capítulo 1 podemos determinar el comportamiento asin- 
tótico de la potencia del criterio de Kolmogórov respecto a alternativas semejantes (véase 
el $3). Supongamos que X € P, donde la distribución P tiene la función de distribución 


Fax) = Fl) + pr. 


Supondremos, para abreviar, que p(x) es continua, y que F(x) es continua y estrictamente 
monótona. La potencia 8(P) del criterio de Kolmogórov en el “punto” P será igual a 


BI) = Pldi(Pr, Pa) > c) = rep IRD — FA > «= 
E 
= P(x 1EXO = p(n" = FR Wa > A. 
Si sustituimos £ = FF Mu), donde FF? es una función inversa a Fp, entonces obtenemos la 
expresión 
rar lu — PERO = FIEF UDINE = pi (0) 
ouel 


Aquí Us(u) = FS(FR '(u)) es una función empirica que corresponde a la distribución Uo.: 
uniforme en [0, 1), así que (4) es igual a 


P/ sup lu- Urlu) ~ PER ‘(un'a — c). 
CA ) 


Además EF '(u) — F~ Ku) en virtud de la estricta monotonía de F. De aquí y de la conti- 
nuidad de p se desprende que 


lim B(P) = x 2, 1w) = al > 5 donde a(t) = p(F” (0). 45) 


Se puede mostrar que esta expresión es mínima cuando a(/) = 0 (p = 0). En este sentido 
el criterio de Kolmogórov es un criterio no desplazado asintóticamente. 
b) Criterio de Mises—Smirnov (criterio u*). Examinemos, en calidad de 
distancia entre P, y Ps, la estadística 
ok = dl, Pi) = n (EG) — FROD? dE, 
con cuya ayuda también es posible construir el criterio de aceptación de 


un nivel dado. En el capítulo 1 hemos demostrado que aquí, al igual que 
en el caso precedente, es válido el 
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Teorema 2. Existe la distribución límite 


lim Pc < 2) = 009 =P ([0e(oy ar < x). 
ad o 


La función Q(x) tiene una forma muy compleja (véase [8]) y aquí no 
la mostraremos. 
Como la funcional 


G(P) = (F) — FA)? dra) 


es una funcional del tipo 11 ($ 1.3), entonces, conforme a las mismas consi- 
deraciones que en el punto a), el criterio w? es conciliable. 


Siguiendo los razonamientos del punto anterior, también se puede establecer el comporta- 
miento asintótico de la potencia £(P) del criterio w? para las alternativas semejantes de P 
de forma (3). De un modo absolutamente análogo obtenemos que 

A) = Pea? > c) > PO - atar > c), 
donde a(t) está definida en (5). El valor límite obtenido es, al igual que en (5), mínimo para 
ale) = 0, así que el criterio w? también es un criterio no desplazado asintóticamente, 


Los dos criterios examinados, al igual que otros criterios de aceptación 
de la hipótesis Mi = [X € Pı), construidos con ayuda de las distancias 
a(P, Q), permiten obtener inmediatamente conjuntos confidenciales para la 
función desconocida de distribución F(x) o para la distribución desconoci- 
da P, de la muestra X. En efecto, la relación (1) (ó (2)) también puede 
ser interpretada así: la probabilidad de que el c-entorno del “punto” P} 
(en sentido de la distancia d) recubra el “punto” P, es igual a 1 — e. (Para 
(2) obtendremos la variante asintótica de esta afirmación). Ello significa 
(véase el $ 8) que el c-entorno del punto P} no es más que un conjunto 
confidencial de nivel 1 — e para la distribución desconocida P,, X € P;. 
El criterio de Kolmogórov, por ejemplo, determina tal entorno en términos 
de las funciones de distribución: el mismo es el conjunto de todas F(x) 
para las cuales 


sup 1F(9) — FANI < ce/ VN, 
t 


donde c se deduce de (1). 

Volvamos a examinar los criterios. Ya hemos señalado que en los niveles 
asintóticos de significación podemos confiar únicamente cuando son gran- 
des los valores de n. Pero si el volumen de la muestra no es grande, entonces, 
al construir el criterio (mejor dicho, al determinar c = c) es necesario uti- 
lizar las fórmulas exactas para la distribución de d(P,, P4). No obstante, 
la obtención de tales fórmulas choca, por lo general, con grandes dificulta- 
des. En este sentido desempeñan un papel muy importante los llamados 
criterios no paramétricos, basados en estadísticas cuya distribución no de- 
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pende de la distribución verdadera P; (o no depende del parámetro f cuan- 
do X € P»). 

En este caso, las probabilidades P.(d(P,, P3) < x) no dependen de P, 
y, por consiguiente, es posible realizarios una sola vez, hacer las tablas y 
utilizarlas posteriormente para cualesquiera P1. 

El criterio de Kolmogórov y el criterio w no son paramétricos. Este 
hecho fue establecido en el $ 1.6. 

Los criterios no paramétricos también surgen al verificar dos hipótesis 
compuestas. 

c) Criterio de signos. Supongamos que F(x) es la función de distribución 
para P,, y que la hipótesis H, consiste en que F(a) = p para un punto 
a dado. Esta es, evidentemente, una hipótesis compuesta. La hipótesis H2 
es suplementaria: Hz = {X € P, Fr(a) # p}. En este caso es natural hacer 
uso de la estadística siguiente: designemos por »(X) el número de observa- 
ciones xi para las cuales el signo de diferencia xy — a es negativo. En calidad 
del conjunto crítico R examinaremos todas las muestras X para las cuales 


r% $(c1, 02) 
con ciertos € < ca. 
Si la hipótesis Hı es verdadera, entonces 
POW = k) = Cp" — py. 
Así pues, para el caso de la hipótesis H,, la distribución »(X) no depende 
de P,, ya que nuestro criterio no es paramétrico. Los números c; han de 
elegirse de modo que 
PON Ea) >1=-E 
(debido al carácter discreto de »(X), aquí puede ser que no se alcance el 
signo de igualdad). La heterogeneidad en la elección de c; se puede eliminar 
exigiendo el no desplazamiento respecto a los cambios de c. En general, 
este problema es equivalente a la verificación de la hipótesis acerca de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a p. Análoga- 
mente se pueden construir los criterios “unilaterales” para verificar las hi- 
pótesis de que F(a) < p. 

Si en calidad de generalización del problema examinado verificamos la 
hipótesis F(a) = pi, i = 1, ..., r para los valores dados de as y pi, llegaremos 
al criterio xê que hemos examinado detalladamente en el $16. 

d) Criterio de Morán. Así se llama el siguiente criterio para verificar 
la hipótesis de que X € P1. Sea Xo), ..., Xm Una serie variacional construida 
según la muestra X. Supongamos que P, tiene una función continua de 
distribución Æ establezcamos la estadística 


Mi= Y Feesn) - Fw)’, © 


kao 
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donde se adopta F(xw) = 0, F(xm+ n) = 1. El criterio de Morán rechaza 
la hipótesis {X € Pı} si M, > c. 

Evidentemente, este parámetro no es paramétrico, ya que F(Xx) € Ub,1. 
Por lo tanto es suficiente examinar el criterio M, > c basado en la esta- 
dística 

M= Y Qarn - xw)? 
pa) 
y destinado a verificar la uniformidad de la distribución de X. En este caso, 


la utilización de la estadística M, es natural, ya que la magnitud $; y? 
A las 
alcanza su mínimo a condición de que Y) »y= 1 en el punto y, = ... 
.=»=1n 
Para calcular el nivel asintótico del criterio de Morán puede servir la 
afirmación siguiente: 
Teorema 3. Si X € P,, entonces 
Vn(nM,/2 = 1) € Bos. 
Demostración. Supongamos que ¿y € Pa,1j= 1,2, .... Entonces fk = 
£ 
= Y) ty € Max y, en virtud del corolario 1.6.2, la distribución compatible 
Ja 
de las diferencias 
X XQ) — Xa) +++ Xi — Xin- D l — Xin) 
coincide con la distribución compatible 
i e EM 
Fher Tns Fasi’ 


así que” i 
Mag te DE- 
sl 


La distribución de M, no depende de a, y se puede poner œ = 1. Entonces 
(véase el $2.2) 


Mf = Fk +1) 


D4 =1, Dif = 20, 
E 
a= E- DE ton 


¿E 
m= - D E€ hoz, 
Sa 


* El signo = significa la coincidencia de las distribuciones. 
a 


258030 
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Tenemos 
dE +E- a] 
naa = 


á [r+ $6-1 


mm 


n(n + mVn) 24 mn~? 


jj aran Aran 


e Mm — 40n — 28n- ">? 
(MM, + — 2V ai (Y) 


mota SAD Y = a 
mm 
Më’ = -2, Dë’ = MIE) — 8) + 16E)) - 4 = 4. 
Por lo tanto, 1 — 4Qn € ®o,4, así que, en virtud de los teoremas de conti- 
nuidad de (7), obtenemos 
Vn(nMn-1/2 - 1) € Bos. 
Esto equivale a la afirmación del teorema. <. 


Citemos ahora las consideraciones que muestran que el criterio de Morán es conciliable, 
Examinemos la estadística (6) para X € P, donde P se distingue de P,. Una de las distribu- 
ciones P, o P puede considerarse, sin limitar la generalidad, uniforme. Supongamos que ella 
será P. Con respecto a F podemos suponer, para abreviar, que existe una densidad continua 
fU) = F' (1) concentrada en [0, 1]. Entonces, para X € Us,, la parte principal de nMn será 
igual a 

. ..t 
n UA nt 011 3 UA 08/8018. 0) 
ho E 
Según la ley fuerte de los grandes números, keg 1 cuando k — œ. Por eso, a su vez, 


Ja parte principal de (8) será igual a 
E finan. 


par] 


Volviendo a utilizar la ley de los grandes números (o la desigualdad de Chébishev), obtenemos 
que esta expresión converge, en probabilidad, hacia 


i 2 
Ad > Afro) =2 
è g 
Aquí el signo de desigualdad es estricto cuando (1) m 1. Esto quiere decir que cuando 
XEP = Uo, # Pi y cuando n > œ, 
VAIM./2 = 1 q 0, 


lo cual conduce, en virtud del teorema 3, a la conciliabilidad del criterio de Morán de cualquier 
nivel registrado 1 — £. < 
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Siendo conciliable, el criterio de Morán no distingue, sin embargo, las hipótesis afines. 
Supongamos que X € P = Vo. 
FU) =1+p0n7%, telo, ao 
PO) = p0) = 0, 
y que la función p(t) es continuamente derivable. Entonces 


mM, a ~ xm)? + 2n Daen — xw) x 
kuo x-0 


x (Piran — Pla) + VIP) — Pw. (1) 


kao 


La parte principal de la segunda suma aquí es igual a 2n 937p (xm)Xxa+n) — Xu)”, o bien, 
kao 


en virtud de Jas mismas consideraciones que en (9), 


25o (knisa 3 ajp'ioae =0. 
kmt è 
El último sumando en (11) también converge (en probabilidad) a cero, ya que su parte principal 
coincide (en distribución) con 


1 n > 
o (k/n En, 
kei 
o con i |wora — 0. Lo dicho significa que para la función F en forma de (10), la 
a 


estadística n2/Mu/2 — V7 tendrá la misma distribución límite de #,ı que para F(1) = 2. <a 
Conviene señalar que de este hecho no se deben sacar conclusiones apresuradas de que 
el criterio de Morán es malo. La cosa consiste en que, sin distinguir las hipótesis afines de 
forma (10), el criterio de Morán distingue otras hipótesis (que son, en cierto sentido, también 
afines) las cuales no pueden ser distinguidas por otros criterios examinados en este párrafo, 
Se trata de las hipótesis para las densidades. 
Examinemos la hipótesis #2 = (X @ P), donde la distribución P tiene una densidad de 
so F cuando 2kA, < f < (2k + 1)ân, 


k=0 l, n N-I, 
O cuando (2k + MA. < £ < Qk + 2)ân, 


función 


donde An = "> Na > Oes un número entero. Entonces, para Ay = 0(2 72) 


de distribución F(£), correspondiente a la distribución P, poseerá la propiedad 
sup 1EM1) = él = 01722). 


Esto quiere decir que la hipótesis # como hipótesis para la función de distribución será 
tan próxima a Hı = (X € Uo.ı), que los criterios de Kolmogórov y w? no las distinguirán 
(el valor límite de la potencia en el punto P coincidirá con el nivel límite del criterio). No 
obstante, como hipótesis para las densidades, las hipótesis H, y Ha se distinguen considerable- 
mente, ya que sup 1(£) — LI = 1. Como xæ = 0, Xw+ o = 1, para X € P la estadística Ma 
superará la magnitud AZN = An/2. Por consiguiente, si n/N=2n4, >œ cuando la 


2. 
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P-probabilidad es igual a 1, tendremos 
aM, = œ. 


Fijando el conjunto critico % = (nM, > 31 obtendremos P:(M:) — 0. Esto significa que 
cuando da = O(m ™?), Ann — «o, el criterio de Morán distinguirá las hipótesis A, y Ha con 
una probabilidad próxima a 1. Con otras palabras, la estadística Ma es sensible a las des- 
viaciones relacionadas con la densidad, y el propio criterio de Morán puede ser recomendado 
como criterio para verificar las hipótesis referentes a las densidades. Por otro lado, del $ 1.10 
sabemos que la velocidad con que las densidades empíricas se aproximan a la densidad verda- 
dera es inferior a n” "2, Por eso, la “indistinguibilidad” de las hipótesis de las densidades 
que difieren una de otra en orden de n”*? (véase (10)) no debe causar sorpresa. 

De acuerdo con el criterio de Morán y con algunos otros criterios examinados anterior- 
mente, se puede hacer una observación general. Si se comparan dos criterios de un mismo 
nivel registrado, el primero de los cuales está destinado al rechazamiento de mayor número 
de alternativas que el segundo, la potencia del primer criterio para cada alternativa registrada 
rechazada por ambos criterios) será, por lo general, menor que la potencia del segundo. A 
título de ejemplo elemental que ilustra esta circunstancia, el lector puede examinar los criterios 
Lal > 2 y Xi >N destinados a verificar, respectivamente, las hipótesis (a »t 0) y 
(0: > 0) frente a {æ = 0), basándose en la observación xı € Lu,1. Aquí » es la cuantila 
de distribución 4v,, de orden 1 — e. Las potencias en el punto æ > O serán iguales a 


1- oil-s- 0% Nesa 0)<1— 60 — a), 


respectivamente. 


$ 13, Criterios asintóticamente óptimos. 

Criterio de la relación de verosimilitud como criterio 
asintóticamente bayesiano para verificar una hipótesis 
simple frente a otra compuesta 


1. Propiedades asintóticas del c.r.v. y del criterio bayesiamo. Examinemos 
el problema de verificación de una hipótesis simple Hı = {X € Po,) fren- 
te a la hipótesis alternativa Hz = {X € P. % 01, 0€ O). En los párrafos 
precedentes hemos visto, en ejemplos, que en este caso el c.u.m.p. no existe, 
por lo general. 

Vamos a examinar el planteamiento “parcialmente bayesiano” del 
problema que hemos descrito en los $$ 4 y 9. El mismo consiste en la supo- 
sición de que 6 es escoge en O; = © (61) al azar, con una distribución Qz = 
= Q. Se puede considerar que Q se da en O, Q((0,] = 0. En este caso 
la distribución de la muestra X se definirá por la densidad “mediada” 

Leto = AQ). 0 
Ahora bien, si se conoce Q, entonces la hipótesis Ho, = Hp, en virtud de 
la cual X tiene una distribución de densidad (1), puede considerarse, junto 
con Hi, como hipótesis simple, y para la construcción del criterio más po- 
tente se puede utilizar el lema de Neumann — Pearson. 

Resulta que en este caso para “casi todas” las Q suaves, los criterios 
más potentes coincidirán asintóticamente con el criterio de la relación de 
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verosimilitud 
a) 


y, por consiguiente, no dependerán de Q. Este hecho permite considerar 
como óptimo el criterio hallado al menos en los casos en que se puede 
suponer que ô en O2 se escoge aleatoriamente, pero desconocemos su distri- 
bución Q. 

Antes de enunciar el teorema respectivo recordemos algunos resultados 
que necesitamos y demostremos una afirmación auxiliar. En ella desempe- 
ñarán un papel muy importante las propiedades asintóticas conocidas de 
la relación de verosimilitud. Vamos a examinar inmediatamente el caso del 
parámetro multidimensional; todo lo necesario para esto se contiene en 
los $$ 2.28 y 2.29. 

Así pues, supongamos que ĝ € © C R*, k > 1, y que se cumplen las 
condiciones de regularidad (RR) cuya enunciación se da en el $2.28. Su- 
pongamos, además, que Q tiene una densidad g(1) respecto a la medida 
de Lebesgue Mdt) = dí. 

Según el lema de Neumann — Pearson, el criterio no randomizado más 
potente xp, = xo para verificar H frente a HQ tendrá la forma siguiente: 
TAX) = 1 si 


> LA > Ts 
xenos [e:O >e], 1260 = [a poda, 6 
donde escogeremos € = cn más tarde, según el nivel dado del criterio. 
Los criterios bayesianos para verificar A, frente a Hg también tendrán 
la misma forma. 
Las probabilidades de los errores de primero y segundo género son 
iguales a 


pRO PE E [ LU) 
atro) = Pa( Roy >) 1800 = [aora 0 
respectivamente, donde (ro = f Jol(%)u”(dx) es la potencia del 


VADER O) 
criterio más potente. 
Podemos escribir las expresiones análogas para el crv. que acepta 
He si se cumple (2): 


po (200 
(PO > o), 
e Lo á a 
ctn) Jar ER < c)ar LD. 9 


VEAN 
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Pongamos 7 = 1(6,) (el valor de la matriz de información de Fisher en 
el punto 61) 
PW (APO 
Su o YU 
1400 a =2N00, © 
Le X) 
Entonces las regiones críticas de los criterios mo y % (véanse (3) y (2) 
pueden escribirse, respectivamente, en la forma 
TO > c, TX >å. 0) 
Lema 1. Supongamos que se cumplen las condiciones (RR) del § 2.28, 
X € Po., y que 0: es el punto interior de O. Entonces 
ITX) = 201 + en(X0) € Ha, En(%) 20. 


Demostración. La afirmación del lema es el corolario evidente de los 
teoremas 2.28.4 y 2.28.5. Sólo debemos señalar que f(X) en las designa- 
ciones del teorema 2.28.4 no es otra cosa sino Y(u*) (cuando 0 = 01). < 

2. Carácter asintóticamente bayesiano del c.r: 

Pasemos a enunciar la afirmación fundamental. Recordemos que cuan- 
do estudiamos las propiedades asintóticas de los criterios, en realidad tene- 
mos presente no uno sino toda la sucesión de los criterios m = rn, donde 
Tn es el criterio basado en la muestra X,. Teníamos la misma situación 
al examinar las propiedades asintóticas de las estimaciones. Ahora bien, 
aquí y en lo sucesivo, siempre que esto sea necesario, por criterio m entende- 
remos la sucesión de las funciones xn(X,) definidas para cada n y 
Xn = [Xa]. 

Definición 1. El criterio v para verificar la hipótesis H, = {9 € 01) fren- 
te a H = (0€ 02) pertenece a la clase R, de los criterios de nivel asintóti- 
col=esi 


lím sup sup Mex(X) < £. (8) 
nme see, 


En nuestro caso, cuando la hipótesis A, es simple y O, = (4), la rela- 
ción (8) se transforma en desigualdad: 


lím sup MO, r(X) < £. 


Sea he una cuantila de orden 1 — e de la distribución A? de k grados 
de libertad (Hi((hz, ©)) = £). Entonces, del lema 1 se desprende que 
moe Ke, TER, si co = ĉ = he/2. 

Definición 2. Pongamos co = he/2, de modo que o € +. El criterio 
€ Ke se denomina criterio asintóticamente bayesiano (ca.b.) en R. para 
verificar la hipótesis H, = (0 = 61] frente a Ho si para las probabilidades 
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de los errores de segundo género, calculadas para la hipótesis Hg, es válida 
la relación 

otr) 1-8 _ y Moll = 0) _ 
o P re T 


En esta definición hemos utilizado la relación (y no la diferencia) de 
las probabilidades de los errores de segundo género, ya que a2(19) > 0 
cuando n > œ. 


lím sup 


Teorema 1. Supongamos que se cumplen las condiciones (RR) y que el 
punto 6, es un punto interior de O. Entonces el criterio de la relación de 
verosimilitud ; (véanse (2) y (7) para € = ha/2 pertenece a R y es el c.a.b. 
en Re para verificar H, frente a Hg, cualquiera que sea la distribución Q 
cuya densidad q(f) es continua y positiva en O. En este caso 


cat) ~ catre LN van”, 


donde 7 = 1(0,), Vx es el volumen de la esfera unitaria en R*. 

Demostración. Ya hemos demostrado la pertenencia de 7 € K¿ cuando 
£ = h,/2. Examinemos ahora los errores de segundo género. En virtud de 
(4) y (1) tenemos 


* rara (ED . 
caro) Sendo) = MO, ROD; 2100 < he) 
Mco) 


2 
- (25) Mo, (e70; 27/00 < he). 


Aquí, bajo el signo de esperanza matemática se encuentra la función limita- 
da de 27 que es casi por doquier continua respecto a la distribución límite 
(He). Por eso, cuando n — «©, xi € Ha, 


i 
Mate; 2700 < hi) > MG; dh < h= 


P 
SE dyr... dyk = Or) PV 


= Qr) 
ea 


Determinemos ahora el comportamiento asintótico de aa(%). Designemos 
An = [X: 10 7 f). En virtud del lema 1 P9,(An) — 0. Por eso, del teore- 
ma 2.29.5 se deduce que para cualquier N registrado, 


sup PosuvalAn) > 0. o 
tie 
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Hagamos uso de la representación (véase (5)) 
am) = [ar TX) < dt = 


= + f < [UNPANX) < ojal + 
IASNAR HS 
+ f gOPLAdt+ [| OPALIO < od. 
MA VEN/ÓR UA U>N/VA 
En virtud de (9) obtenemos 


lim sup n*?oa(7) < lím n*o(ro) + 


AW < jas 


pa | PUR 


>N/Vñ 
Pero la probabilidad bajo el signo integral no excede 
LO e- ) 2, 
SH 1/2 = It- 1/2). 10) 
nao >e < exp {ĉ; 0ıl°ng/2) (10) 
Aquí hemos utilizado el teorema 2.28.1. Por consiguiente, la propia in- 
tegral no excede 
etn | e-tu?tdu = 0 
bN 


cuando N> œ. De aquí se deduce que 


lím sup n*202() < lim n*?. 


'aa( To). (11) 


Es evidente que esto equivale a que % es el cab. 
Sólo queda determinar que a2(%) ~ a2(1p) o que, también en virtud 
de (11), 
lím inf n*20,(5) > lim n*Po2(0). (2) 
+ Para esto, nótese que el criterio rg construido es bayesiano y correspon- 
de a la probabilidad a priori q, de la hipótesis A que se define por la 
ecuación (compárense (3) y (6) 


a -(E 2 aO) oe, 
=a Na) Nino 


Esto quiere decir que la probabilidad del error mọ se comportará asintótica- 
mente como 


equ + (1 — qı) œ (x0) ~ eq1 + a(To). 

Si admitimos que (12) no es cierta, obtenemos el criterio + para el cual 
la probabilidad del error será menor. Como esto no es posible, (12) queda 
demostrada. El teorema está demostrado por completo. < 
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De los razonamientos citados se deduce que en las probabilidades de 
los errores de segundo género hacen el aporte principal los valores aleato- 
rios de Ó que entran en el entorno n” '? del punto ô; (con ello se explica 
el orden de pequeñez n”*? de estas probabilidades). 

Las modificaciones insuficientes de los razonamientos para la demostra- 
ción del teorema 1 también permiten obtener la afirmación siguiente. 


Teorema 2. Los criterios x’ y w” con las regiones críticas 


= {xE 2”: n(6* — ODANI — 8) > ho), 


Q” = (xE 2% LX OIT ONL (X, 0T > he) 05) 


son, a la par con %, los ca.b. en K.. Esta propiedad se conserva si 1(01) 
en (13) se sustituye por 1(Ó"). 


Los criterios (13) se obtienen si se utiliza el desarrollo 


n #20 
ES 


en serie cerca del punto ĝ* (véase el teorema 2.28.4). La forma del criterio 
4 es, en cierto sentido, más cómoda, ya que no está relacionada con la 
dimensión. 

La demostración del teorema 2 se la concedemos al lector. 

En el caso unidimensional, el conjunto crítico 9’ (al sustituir /(0,) por 
K'Y) tiene la forma 


- (e -al> la] 3 a49 


donde, evidentemente, Re = Aj2, #o.1((— M2, M2) = 1 — £. Vemos que el 
criterio x’ respectivo (14), que equivale asintóticamente a 7, puede interpre- 
tarse así: x'(X) = 1 si 6, no ha caído en el intervalo confidencial de nivel 
asintótico 1 — e para el parámetro 0, construido con ayuda de la ey. Ú*. 

Esa misma interpretación también se conservará, evidentemente, en el 
caso multidimensional; además, los conjuntos confidenciales tendrán for- 
ma de elipsoides: 


= 1(X,0*) - L(X, 01) 


(E — MENE" = 07 < n~he. 
Asi pues, vemos que la e.v.m. está estrechamente relacionada con el c.a.b. 
j ao 1. Supongamos que X € Ih y que se verifica la apona 
= [à = M) frente a Ha {à % M}. En este caso Ñ* =x", JA) = A7} y 
A cab. tendrá la forma 
G- NP > A/m, 
donde Hi((he, ©)) = e. 
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Ejemplo 2. Supongamos que X € Ba,» y que se verifica la hipótesis 
Hi = ((a, 0?) = (al, of)} frente a la alternativa adicional. Aquí á” = x, 


; e 
Pasau 15 -I Ia, 0*) = E un) (véase el $2.16). Por 
a 
eso el c.a.b. tiene la forma 
Gar, ($ - i} he 
A 20 n’ 
donde Hz((he, 00)) = €. 

3. Carácter de no desplazamiento asintótico del c.rv. Concluyendo este 
párrafo estableceremos que el crv. (2) no está asintóticamente desplazado. 
Recordemos previamente que el criterio x para verificar Hi = (0601) 
frente a H = (8 € O2) se llama criterio no desplazado si 


inf Mor — sup Mex > 0. 
so, CA 


Definición 3. El criterio m se denomina criterio asintóticamente no 
desplazado si 
lím inf ( inf Mor — sup Mor) >0. 
me Nso Kor 
Teorema 3. El crv. è (véase (2), (6) y (7)) para verificar Hı = (0 =01) 
frente a Ha = 10 # 01) es un criterio asintóticamente no desplazado. 


Demostración. Como en nuestro caso O, = (0,) y lím Mo, 
suficiente cerciorarse de que E 


líminfinf M;ĉ = lím inf inf ro > e) >e, (15) 
o moe 10 X 


nee a 2.16 


donde ĉ = h¿/2. 
De la estimación (10) resulta que existe N > 0 tal, que 
LEO 
==> E 
ana go > 4)? 
Queda demostrar que inf Máz>e 
M-el NVR 
Pero, en virtud de los teoremas 2.28.4 y 2.29.3, cuando X € P, unifor- 
memente respecto a u, lul < N, u = Vn(t — 01), 


PO) = FE- DIE = u), EE Bor, 


OR ES - DIE- u)" > ê= r). 


El segundo miembro aquí alcanza su valor mínimo cuando u = 0. Este 
valor es igual a P(E/F7>h)=e < 
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$14. Criterios asintóticamente óptimos para verificar 
las hipótesis compuestas semejantes 


1. Planteamiento del problema y definiciones. En el $ 3 hemos estudiado 
dos enfoques asintóticos del problema de verificación de dos hipótesis 
simples A, y Hz. Si consideramos estas hipótesis fijas, o sea, invariables 
para el volumen creciente n de la muestra Xn, entonces, al calcular las pro- 
babilidades de los errores, llegaremos al problema de las probabilidades 
de grandes desviaciones, de modo que la probabilidad de uno de los errores, 
como mínimo, convergerá a cero. De acuerdo con otro enfoque, las hipóte- 
sis Hı y Fl, se consideran como elementos de la sucesión de hipótesis “que 
se aproximan”, en este caso la velocidad de aproximación se escoge de ma- 
nera que las probabilidades de los errores de primero y segundo género 
converjan hacia sus propios límites (distintos de O y 1). Hemos visto que 
en el caso paramétrico, los valores del parámetro 0, y 62, correspondientes 
a las hipótesis H, y Ha, deben distinguirse en orden de n”?, Cada uno 
de estos enfoques puede ser justificado conforme a las condiciones 
concretas. 

En el párrafo precedente hemos examinado la distribución Q, no depen- 
diente de n, para el valor alternativo de 9 y, como era natural de esperar, 
hemos obtenido que la probabilidad de un error de segundo género conver- 
ge a cero como n~*?, Esto se debe al hecho de que a esta probabilidad 
contribuyen principalmente las hipótesis semejantes para las cuales 0 está 
alejado de 0, a una distancia del orden de n~ '? (el volumen de la región 
que contiene tales ô tendrá precisamente un orden de pequeñez de n” 4/2), 

En este párrafo examinaremos el problema de verificación de las hipófe- 
sis compuestas semejantes, cuando los valores alternativos del parámetro 
se aproximan cuando n — œ. Resulta que en este caso, el problema de veri- 
ficación de las hipótesis se puede reducir, en cierto sentido, a un problema 
mucho más simple para la distribución normal. 

Pasemos a enunciaciones más exactas. Supongamos que a base de la 
muestra X @ Pa se comprueba la hipótesis H,=(9€01] frente a 


H = {0 € @2). Fijemos cualquier punto interior 6: del conjunto © y 
pongamos 

0 =b + yn (1) 
Ahora supongamos que el conjunto ©; tiene la forma 

O= h + Tn’, a) 


donde T no dependen de n. La notación (2) significa que 0 € ©; sí y sólo 
sí en (1) y € Pi. Las hipótesis H; = (9 € 61) para la condición (1) serán Ila- 
madas, al igual que en el $3, hipótesis semejantes (en realidad son una 
sucesión de hipótesis propias de cada 7). 
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El problema de verificación de las hipótesis semejantes Hi a base de 
la muestra X € Po se llamará problema A. 

Examinemos ahora otro problema. Sea Y € #,.z-: una muestra de vo- 
lumen unitario de la población normal #y,7-: con un vector de valores me- 
dios y y con una matriz de segundos momentos 77! = 77 *(61), donde (91) 
es la matriz de información de Fisher para el problema A en el punto Ó,. 
Designemos por h; las hipótesis [y € T'1). El problema de verificación de 
las hipótesis ⁄; a base de una sola observación Y € $,,1-, se denominará 
problema B 

El hecho extraordinario que permite realizar la reducción antes men- 
cionada consiste, aproximadamente, en lo siguiente. Sea (Y) el criterio 
óptimo en uno u otro sentido (el cu.m.p., el criterio bayesiano o el criterio 
minimax) para verificar hi frente a Az en el problema B. Y sea 6", como 
siempre, la ev.m. en el problema A, y” = (Ó* — 01)Vn. Entonces el criterio 
z(y") para verificar Fl; frente a Ha en el problema A poseerá asintóticamen- 
te las mismas propiedades que el criterio (Y) en el problema B. 

Ahora bien, para hallar el criterio asintóticamente óptimo en el proble- 
ma A, debemos examinar el problema B, que es más simple, y encontrar 
en éste (si es posible) el criterio dotado de la propiedad de optimización 
necesaria. Si ahora tomamos, en calidad de la observación Y, el valor de 
+" y lo sustituimos en x, obtendremos el criterio buscado en el problema A. 

Este hecho podría llamarse indicio límite de optimización. Su sentido 
es bastante sencillo. Pues sabemos, de los resultados del capítulo 2, que 
cuando X € Ps, 

vVn(Ó* — 0)1'2(0) € Log 


uniformemente respecto a 6. Por consiguiente, para 0 = 0 + yn"', 


vn(Ó" — 01) — y € Bor- 
o bien, que es lo mismo, 
Y ed, 
Así, pues, b,.,-:, o sea, la distribución presente en el problema B no es 
otra cosa sino la distribución límite para y”. Por eso, el indicio límite de 
optimización es muy natural: reduce el problema de verificación de las hi- 
pótesis a un problema “límite”. Lo interesante en todo esto es el hecho 
de que con tal reducción no ocurre ninguna pérdida considerable de infor- 
mación respecto a ĝ: el criterio óptimo en el problema B también conserva 
esta optimalidad con arreglo al problema A. 
Para conferir a lo dicho un sentido exacto, introduzcamos ahora los 
principales conceptos de optimización asintótica de los criterios para verifi- 
car las hipótesis semejantes en el problema A. 
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En el párrafo precedente hemos dado la definición de la clase K, de 
los criterios m de nivel asintótico 1 — e (definición 2). Para r€K, es 
válida 

lím sup sup Mex(X) < e. 


Definición 1. El criterio m € Ñ, se llama criterio asintóticamente más 
uniforme y más potente (c.a.u.m.p.) en K: si para cualquier y € Pz y para 
cualquier r € Å 

lím inf (Mer: (X) — Mer(X)) > 0, 


donde 0 = 0; + ym” 12€ 0, cuando y €T». 

Supongamos que en T; se dan las distribuciones I; que inducen en ©; 
algunas otras distribuciones (concentradas en el entorno n~"? del punto 
81) que designaremos por Q;, i = 1, 2, Las hipótesis de que O se elige al 
azar con la distribución Q, las designaremos, como antes, por Ho. 

Por KÊ designaremos la clase de criterios x para los cuales 


lím sup Mo,r(X) < e, 


donde Mo, significa la esperanza matemática incondicional de la distribu- 
ción compatible de 0 y X, 0 € Q,, X E Po. Es evidente que Ñe C K¿2 para 
cualquier Q. 

Definición 2, El criterio mı € RP: para verificar Hp, frente a Ho, se de- 
nomina criterio asintóticamente bayesiano (ca.b,) en RẸ: si para cualquier 
otro criterio m € Rẹ», 


lím inf (Mom (X) — Mo, 7(X)) > 0. (3) 


Se puede dar una definición equivalente del carácter bayesiano en la 
cual en vez de (3) se exige que 


lim inf (Mom (X) — Mo: TQ,0:(X)) > 0, (4 


donde gp, es el criterio bayesiano de RÊ: para verificar las hipótesis Ho, 
y Ho, (o, que es lo mismo, el criterio más potente para verificar Hp, frente 
a Ho, de nivel asintótico 1 — e). 

Cabe señalar que la definición 2 se distingue algo de la del c.a.b. que 
hemos dado en el párrafo anterior (véase la definición 13.2. Allí figura 
la relación de las probabilidades de los errores, y no su diferencia). Desde 
el punto de vista de la exposición ulterior, estas definiciones son equivalen- 
tes, pero la última de ellas será la más conveniente para nosotros. 

Definición 3. El criterio m € K, se llama criterio asintóticamente mini- 
max en K, para verificar Hı frente a Æ si para cualquier otro criterio 
1 € K¿ se cumple 

lím inf (inf Mori (20 — inf Mor(X)) > 0. 5 
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Al igual que al examinar los criterios minimax ordinarios (véase el $9), 
para evitar consideraciones poco importantes, es cómodo separar los con- 
juntos O, y 02 por medio de cierta zona intermedia, de modo que ellos 
no se toquen. De lo contrario ambos límites inferiores en (5) pueden resultar 
iguales a e para cualquier criterio no desplazado asintóticamente r. 

De las definiciones citadas se deduce que la propiedad de una u otra 
optimización asintótica se distingue de la propiedad corriente de esa misma 
optimización tan sólo por el hecho de que ante la respectiva diferencia apa- 
rece el signo lim inf. 

A la par con los criterios asintóticamente bayesianos y minimax, en 
las clases Å, y K2» se puede estudiar las clases asintóticamente bayesianas 
y minimax ordinarias. Supongamos que en © = O; U ©z tenemos la distri- 
bución Q = 4(1)Q; + a(z, 9(1) + 9(2) = 1. Entonces, el criterio mı se 
denomina asintóticamente bayesiano para la distribución a priori Q, si para 
cualquier otro criterio m, 


lim inf [g()Mo, mN + qQ)Mo (1 — m(X) — 


- aWMgr(X) — 40)Masl! - TON <0. (5 
La probabilidad de error del criterio  promediado respecto a Q, presen- 
te en esta desigualdad, puede ser escrita mediante la probabilidad a(r, 0) 
de error en el punto 6, en forma de Mpga(x, 6), donde 
Mer(X) cuando 9€0,, 
Sd (a 
Entonces, la desigualdad (6) adopta la forma 


lím inf Mola(m(X), 8) — a(r(X), 0)] < 0. 


El criterio x; será asintóficamente minimax si 
Km inf [sup a(x1, 0) — sup a(x, 0)] <0 


para cualquier otro criterio z. 

El estudio de los criterios asintóticamente bayesianos (en K2:) y asin- 
tóticamente minimax (en K¿), y simplemente el estudio de los criterios 
asintóticamente bayesianos y minimax es, de hecho, una misma cosa. Por 
ejemplo, el criterio bayesiano de Xf: es un criterio bayesiano ordinario pa- 
ra q() correspondiente. En este párrafo estudiaremos los criterios de las 
clases K, y R$, en tanto que los criterios asintóticamente bayesianos y mi- 
nimax ordinarios serán examinados en los capítulos ulteriores al investigar 
un planteamiento más general del problema. 

2. Afirmaciones principales. Para simplificar al máximo la exposición 
posterior, introduciremos una suposición que de ningún modo está rela- 
cionada con la esencia de la cuestión y que, si se desea, puede ser retirada, 
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ya que para ello existen todos los resultados necesarios. Es decir, supondre- 
mos que Jos conjuntos T; están limitados, o sea, existe N > 0 tal, que 
DC (y: Iyl $N). 
Definición 4. Los criterios x, y 72 para verificar las hipótesis semejantes 
Hı = (0€ 01) y Ha = (0 € O») a base de la muestra X, se denominan crite- 
rios asintóticamente equivalentes si 
lím sup Mom (X) — Mera(X)| = 0. (Y) 
ne 68/UO, 
Después de tal suposición podemos poner la región 18 — 6,1 < N/VH 
bajo el signo sup en (7). 
Los criterios asintóticamente equivalentes m; y m2 poseen las propieda- 
des siguientes: 
1) Si mı € Re (o RẸ), entonces m€ R, (RẸ). 
2) Si m, posee una de las propiedades de la optimización asintótica en 
las definiciones 1—3, el criterio m poseerá esa misma propiedad. 
La primera afirmación se deduce de (7) y de la desigualdad 
¿up Mem(X) < sup Mom (X) + sup IMo(a — m)l. 
io, 16, só, 


La segunda afirmación se demuestra análogamente. Si, por ejemplo, x; es 
asintóticamente minimax, el carácter asintóticamente minimax de m será 
el corolario de (7) y de la desigualdad 


inf Mor (X) > inf Mem (X) — sup Mor - m)l. < 
90, i ZA 


Las condiciones de la equivalencia asintótica de los criterios son estableci- 
das por el 

Lema 1. Supongamos que en el entorno del punto 0, se cumplen las con- 
diciones (RR), m(X) = ITAD + w0 > 01) i= 1, 2, donde para X € Po, 
tienen lugar las relaciones en(X) z; 0, Ta(X) € G, y la distribución G 


es continua. Entonces, los criterios x, y mz son asintóticamente equivalentes. 

Demostración. IMr: (X) — Mer2(X)| < P,(4»), donde para el suceso 
An = (m(X) 4 m(X)] se cumple Po,(4n) = Po (T(X) + Em(X) > c, 
TX) + Eal X) < 0) + Pa(Tn(X) + em(X) < €, Ta(X) + En (X) > c) > 0 
cuando n — co, ya que la distribución límite 7, es continua. Por consiguien- 


te, en virtud del teorema 2.29.5, sup PAn) >0. < 
le- b 1 KNAVA 


El criterio bayesiano de nivel 1 — e en el problema B para verificar las 
hipótesis An, de que y se elige al azar con la distribución Il, en T;, ¿= 1,2, 
lo designaremos por mm, (Y). Este criterio tiene la forma 


(8) 
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donde c = c se elige de la condición 
[otr Md) = e ply, c) = AD >) YE Br 9) 

Estas relaciones significan, evidentemente, que Mn, Tn (Y) = e. 

Nótese que r(») es una función analítica de y. En virtud de su analiti 
dad, esta función no puede adquirir un valor constante en el conjunto de 
la medida positiva de Lebesgue o de la medida ®y,r-: (de lo contrario sería 
constante en todas partes, lo cual sólo es posible cuando Il, = Ml»), Por 
lo tanto, P(»(Y) = c) = 0 para cualquier c, y la distribución de r(Y) es 
continua. 

Supongamos, como antes, que ro,o,(X) designa el criterio bayesiano 
de nivel asintótico 1 — £ en el problema A. 


Teorema 1. Supongamos que las condiciones (RR) se cumplen en el 
entorno del punto 01. Entonces, el criterio x(X) = muy) Y = 
= (Ó" — 01) Vn es asintóticamente equivalente al criterio xg,o, Y, POr consi- 
guiente, es asintóticamente bayesiano. 

Además, 


sup [Mo + /am(X) — py, e)! > 0 (0) 
men 
cuando n= œ, donde ply, c) = Myrmm(Y) está definida en (9). 


Demostración. Examinemos el criterio bayesiano o,o, en el problema 
A. Este criterio tiene la forma 


qoo = irnod >, 


Sosun ON (du) 


Si X € Po,, entonces, en virtud del teorema 2.28.5, 
TX) = ry + e(X,0)) 

y" =u* cuando 0 = 61). Como la distribución de r(Y) es continua, 
y" = Y € %o,1-:, y como el criterio ~ tiene la forma r(y”) > c, en virtud 
del lema 1 queda demostrada la primera afirmación del teorema. 

La relación (10) se deduce de la representación 

Masya T(X) = Morir leze} > POY) > c), 

Y € 9,1 y del teorema 2.29.4, < 


Teorema 2. Supongamos que en el entorno del punto b, se cumplen las 

condiciones (RR), y" = (6* — 6Vn. 
Supongamos, además, que existe el criterio minimax x,(Y) de nivel 1 — £ 
para verificar $, frente a fa en el problema B, y que este criterio es bayesiano 
m(Y) = ma (YN) m) 
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para las distribuciones a priori Tl, y Tk que satisfacen las condiciones 
Mn,.m(Y) = e M,z(Y), 
ren 
Max) =p M PER 
rela 


(compárense con las condiciones 9.1). Entonces, el criterio (X)= 
= mn. ly") será asintóticamente minimax en la clase R, de los criterios 
para verificar H, frente a Hz en el problema inicial A. 


(12) 


Demostración. Como ~x, es un criterio de nivel 1 — e, entonces 


sup Mm (Y) = Mn,r(Y) = e. 


De aquí, en virtud de (10) y (12), obtenemos 
lim sup Masya To0(X) = lim Maroo(X) = e. 


ama el 
Esto significa que 19,9, € Ke, Too, € RP. 

Ahora es necesario demostrar que para cualquier criterio 3° € K, 

lim inf (inf Mex(X) — inf Moz™(%0) > 0. 

Tenemos j 

lm sup inf Mex"(%0 < lim sup Mer"(X) < lim sup Mo:to,o:(X). (13) 
La última nid es válida en virtud del carácter bayesiano de 0,0, 
(o sea, de la minimización de qıMo, Tog: + (1 — qı)Mo(1 — ro.o,) para 
q, correspondiente) y en virtud del hecho de que lim sup Mg,1"(X) < €, 
lím Mo, Too; = £. 

Seguidamente, en virtud de (10) y (12) y del teorema 1, el segundo 
miembro en (13) es igual a 
lím Mo,T:(y") = Mn; 2mm (Y) =Ma = 

= lím inf Mo, vato: (2). a 


Teorema 3, Supongamos que existe un c.u.m.p. (Y) de nivel 1 — e para 
verificar kı frente a kı en el problema B. Supongamos, además, que para 
cualquier ya € Ta existe una distribución TI, en T; tal, que 

r(Y) = ram (Y) (14) 
es el criterio bayesiano para verificar fi, frente a ki, (aquí Tha está con- 
centrada en el punto y2). Entonces, el criterio (X) = miy") es el cau.m.p. 
(de nivel asintótico 1 — e) para verificar H, frente a H en el problema inicial 
A 


Nótese que para los problemas de los $$ 5—7 siempre se cumple la con- 
dición (14). Esto se deduce de la propia construcción del c.u.m.p. en estos 
párrafos. 


26—8030 
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Demostración del teorema 3. La pertenencia de m.(y") € Ñ se deduce 
del teorema l, ya que 
lím sup Mem") pd lím Mem(y > sup PC o) Le 


Sea ahora z* cualquier otro criterio de K¿. Entonces 
lím sup Mo, 7*(X) < lím sup sup Mor (X) < € 


y, por consiguiente, x* también se puede considerar como criterio de RP 
para verificar Ag, frente a Ho,, donde Q; está inducida por la distribución 
Tl, (véase la enunciación del teorema), y Qz está concentrada en el punto 
0 =0 + yan? Si roo, es un criterio bayesiano de nivel asintótico 
1 — £ para estas distribuciones, entonces 


lim Ma, zoo: (X) > lím sup Mo," (X). 


Pero el primer miembro de esta desigualdad coincide, en virtud del 
teorema 1, con el valor 


lím Mammy’) = lim Mo, Ti(y"). < 
me peri 


De un modo análogo se puede buscar el c.a.u.m.p. en la clase de los 
criterios no desplazados asintóticamente. 

Observación 1. Si las distribuciones Ih y Ie están concentradas en los 
puntos yı y y2, respectivamente, entonces 


-40 -MIY -a 
Era 


Por lo tanto, la región crítica am,n,(Y) tendrá la forma 
Yin - n) = OI, (m- vn) ><. 
En el caso unidimensional, de aquí obtenemos el c.a.m.p. (3.21) que hemos 
estudiado en el $3. 
Observación 2. Si la distribución II, está concentrada en el punto u = 0, 
y la distribución Th es uniforme en la esfera lul < N, el denominador de 


la función r(Y) será igual a exp e, y el denominador para 


grandes N y Iyl < N — VN será próximo a VT71 (21)*?. Por consiguiente, 
la región crítica para mn, con tales Ih y Tk será próxima al aspecto exte- 
rior del elipsoide 


YIY">c, 
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y la región crítica del criterio asintóticamente bayesiano 1m,m,(y*) será 
próximo a 

r >e 
Esto no es otra cosa sino la forma asintótica del crv. que hemos estudiado 
en el párrafo anterior (compárese con el teorema 13.2). 

Observación 3. En los teoremas 2 y 3 están presentes las condiciones 
consistentes en que el criterio minimax (teorema 2) o el c.u.m.p. (teorema 3) 
para el problema B son bayesianos en caso de algunas distribuciones Ti; 
en Ty. En los capítulos posteriores veremos que estas condiciones son imúti- 
les: la clase de todos los criterios bayesianos comprende todos los criterios 
“inmejorables”, incluso los cu.m.p. y los minimax. 


§ 15. Propiedades de la optimización asintótica del criterio 
de relación de verosimilitud que se deducen 
del indicio límite de optimización 


En este párrafo examinaremos algunas consecuencias de los resultados del 
$ 14, vinculadas con el criterio de relación de verosimilitud. Estableceremos, 
en particular, la potencia máxima uniforme asintótica y el carácter minimax 
asintótico del c.rv. para algunos problemas importantes concretos, rela- 
cionados con la verificación de las hipótesis próximas. 

En lo sucesivo siempre estimaremos que en el entorno del punto 0, se 
cumplen las condiciones (RR). Para simplificar los cálculos será convenien- 
te, al igual que en el párrafo anterior, considerar, donde sea necesario, que 
los conjuntos T% están limitados. 

1. Ca.u.m.p. para hipótesis semejantes con alternativas unilaterales. 
Supongamos que el parámetro 6 es unidimensional y que se verifica la 
hipótesis unilateral A, = {9 < h + yin” 1?) frente a la hipótesis Hz = 
=(0>0=0+yn 2), n<n. 


Teorema 1. El criterio de relación de verosimilitud (X) con la región 
erítica 
sup fa(X) 
Lg 
pA 
cuando O, = (0: 0 < 0 + in~ ™?]), 0, = (6:08 > 0, + yan” '?) y con un 
valor conveniente de c, es asintóticamente equivalente al criterio 
Y = (6 -0NR>4«=XxI" +y, done) = 1- e a) 
y es el caum.p. de nivel asintótico 1— e para verificar la hipótesis 
Hi=(0<0 +y1n"'?) frente a Ha=(0>6 + un” "?). En las fór- 


mulas (2), I designa la información de Fisher K(91) en el punto 0, para la 
familia fo. 


26* 


RO= (9) 
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Demostración. Del $ 5 se deduce que para una muestra Y € P,,1-» de 
volumen unitario, procedente de una población normal de varianza conoci- 
da 177, existe un cu.m.p. para verificar la hipótesis £, = [y < yı} frente 
a fe = (y > my) de forma Y > ce, donde c está definida en (2). Así mis- 
mo será, evidentemente, el criterio bayesiano para las distribuciones dege- 
neradas concentradas en los puntos yı y yz (o en los puntos yı Y y > Y 
si yı = y). A base de esto, del teorema 14.3 se deduce que existe el 
ca.u.m.p. de nivel asintótico 1 — e para verificar H frente a Ha y que el 
mismo tiene la forma (2). 

Queda demostrar que los criterios (1) y (2) son asintóticamente equiva- 
lentes. De acuerdo con el teorema 2.28.4, suponiendo que Zi(t) = 
afati” 

Su) 

sup Zi(un” Y2) 


RA). 2 
9 sup Zi(un” 
“e 


„ tendremos, cuando X € Pa, 


sup exp Lio uN I+ Poo) 
“un 


a = TAX) + EPX, 
sup exp i z aii uĵI + Po] 
un 


donde APO 0 1=1,2,3, 
" 


sup exp Eo - wn 
TO = r= => = 

supexp | -54y — u}: 

un Í 2 } 


af-io- vòn cuando y" < y, 
= ¿ep -40 -nI + jr - vèn cuando yı < Y° < ya, 
exp ir - nèn cuando y' > y- 


Esta es una función continua monótonamente creciente de y*. Por consi- 
guiente, la desigualdad T„(X) > c equivale a la desigualdad y” > c’ para 
cierta c'. Además, como y” = Y € %o1-1, entonces la distribución r(Y) 
es absolutamente continua. Las condiciones del lema 14.1 para los criterios 
(1) y (2) se cumplen. < 

2. Ca.u.m.p. para alternativas bilaterales. Supongamos que el pará- 
metro 0 es, como antes, unidimensional, y que el problema A consiste 
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en verificar la hipótesis Hi = ((6 — 01) Vn ¢(yı, v2)) frente a Fh = 
= (0 — 6) Vn €(n,1)), y > yı. Designemos 
Y PEA q e SM 
E aii 
Teorema 2. El criterio de relación de verosimilitud F(X), definido en (1) 
pora el valor correspondiente de c y para O; = (8: (9 — 01) Vn § (yi, v2)), 
= (6. (0 — 0) VE (Yi, 1), al igual que el criterio 
ly = yl a (8 — 01) VR yl < ce, 6) 
donde c: se determina de la ecuación bo,:-(—c— å, ¢ — A) = e, son los 
caump. de nivel asintótico 1— e para verificar Hi = ((0 — 01) Vn ¢ 
(m1, 12)) frente a Ha = 1(0 = 0) Vn € (7i, n)). 

La demostración de este teorema es bastante parecida a la del teorema 
anterior, Del $ 5 resulta que para el problema B destinado a verificar, a 
base de la observación Y € b,,1-., la hipótesis A, = [y $(y1, y2)) frente 
a k = [yE (y, 12)), existe un cu.m.p. en forma de c’ < Y < c”, donde 
c’ y c” se eligen de modo que 

Bnr- (C(e, 07) = Bale”, 07) = E, 

Es fácil notar que podremos satisfacer estas relaciones si ponemos 
C =y- G C Y + Ce, ya que 

Bn — Co y + 0) = Bo + A, a + 4) = 6, 

Prot (Y — a Y + A) = Bo (E — A, G — A)) = e. 
Además, en el $5 hemos visto que para cualquier yo € (yı, y2) existe 
q € (0, 1) tal, que el criterio bayesiano xn,n, al verificar la hipótesis An, pa- 
ra la distribución Ih: M((y1)) = g, M((72)) = 1 — q frente a la hipótesis 

= (y = 70), tendrá la forma 
e<Y<e". 

Esto significa que las condiciones del teorema 14.3 serán cumplidas y 
que el criterio (3) será el ca.u.m.p. para verificar Hı frente a Ha. 

Examinemos ahora el crv. (1) para las regiones O, definidas en el teore- 
ma y mostremos que el mismo equivale asintóticamente a (3). Al igual que 
en la demostración del teorema 1, del teorema 2.28.4 obtenemos que, para 
XE Po, 

sup Zi(un” 2) 
ua 
EE E 

sup Zi(un 

do oa 


tr Pr + PO) 
1 + EP 


= TAX) + EP, 
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exp -4r = nën) cuando y' < y, 
exp 37 -nI cuando y < y" <7 
exp 3 — nI cuando 7 < y'< y, 


ap -40 - ner) cuando y < y”. 


De estas igualdades se deduce que r(y”) es una función continua monótona- 
mente decreciente de |y* — y! (ella es simétrica respecto al punto y* = y). 
Por eso la desigualdad r(y*) > c equivale a la desigualdad ly” = yl < c’. 
Como y'= YE fos-1, entonces se cumplen las condiciones del 
lema 14.1. < 

3. Criterio asintóticamente minimax para hipótesis semejantes referen- 
tes a un parámetro multidimensional. Examinemos ahora el parámetro 
multidimensional 0. En este caso, el c.a.u.m.p. para verificar la hipótesis 
Hi = {8 € 01) frente a M = [6 € 02), por lo general, no existe, y examina- 
remos el problema de construcción de los criterios asintóticamente 
minimax. 

Al principio es necesario exponer una observación general para simplifi- 
car los razonamientos posteriores. Dicha observación consiste en que el 
referido problema de verificación de las hipótesis siempre se puede “repara- 
metrizar” (o sea, introducir un nuevo parámetro) de modo que la matriz 
de información 7 = I( 61) en el punto 6, se convierta en matriz unidad. 
Para esto es suficiente (véase el $2.1) efectuar una transformación lineal 
e introducir un nuevo parámetro f£ mediante la igualdad 

0 = Br’? 
Entonces, la matriz de información de Fisher J(8) para la familia para- 
métrica Pg,,-w2 será igual, en el punto £; = 0,1%, a 
KB) = DYIP = E. 

En este apartado nos será más fácil examinar el parámetro f. Siempre 
podremos volver al parámetro inicial con ayuda de la transformación lineal 
inversa, 
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Así pues, supongamos que Z = 1(91) = E, y examinemos el problema 
A de verificación de la hipótesis 
Hi = [10 — 611 <an”'?) frente a Ha = {10 — 611 >bn" "?), a< (4) 
a base de la muestra X € Po. 

Teorema 3. El criterio de relación de verosimilitud % definido en (1) para 
el valor correspondiente de c y para O; = [6:10 — 6,1 <an”'?] O, = 
= (0:10 — 011 > bn” Y?) es asintóticamente equivalente, para cualesquiera 
0%a<b< œ, a los criterios 


HO 


EI Y 
ly" = 1(Ó* — 0) Val > ce, (6) 

donde Ġ es la solución, respecto a c, de la ecuación 
pela) = P(g + a)? + E + Eme, y) 


y esel criterio asintóticamente minimax de nivel asintótico 1 — & para verifi- 
car las hipótesis H, y Hz definidas en (4). Las variables aleatorias +, en (7) 
son independientes, E, € Po,1, la potencia límite garantizada de los criterios 
m, (5), (6) es igual a pe,(b). 

Demostración, Aquí el problema B consistirá en verificar, valiéndose 
de la observación Y € b,,£, la hipótesis k = [lyl <a) frente a ha = 
= (ly! > b). En el ejemplo 9.1 hemos visto que en este problema existe 
un criterio minimax de nivel 1 — e que tiene la forma 

YI > ce. 

Para construir este criterio hemos utilizado el teorema 9.1. Esto significa 
que las condiciones del criterio 14.2 se cumplen. Por consiguiente, el criterio 
ly’! > a 
será un criterio asintóticamente minimax de nivel asintótico 1 — € para el 


problema A. 
El criterio de relación de verosimilitud (1) aquí tendrá la forma 


sup Z(un” 2) 


MEN 
R(X) = Sup Zin ACTO] > (8) 
iaca 


Observando exactamente los razonamientos utilizados en las demostra- 
ciones de los teoremas 1 y 2, obtendremos que R(X) = Ta(X) + en(X), 


eX) z} 0, donde 
sn] 19 5 u?) 
TO = qy’) = = 


M ET y 
METE 
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De aquí, como antes, se deduce la continuidad absoluta de la distribu- 
ción r(Y) y la equivalencia asintótica de los criterios R(X) > e y T(X) > €. 
Este último equivale al criterio 

yi>c, 
el cual, cuando c’ = ce, será un criterio de nivel 1 — e. Según el 
teorema 14,2 (véase (14.10), éste tendrá una potencia límite garantizada 
igual a pa(b) (véase el teorema 9.2). < 

Observación 1. Si volvemos al parámetro inicial (hasta la reparametriza- 
ción que transforma /(9,) en una matriz unidad), obtendremos que la afir- 
mación del teorema será válida respecto a las hipótesis H; = {0 € 0), 
donde (compárese con el ejemplo 9.2 cuando a? = 17!) 

O, = (0 (0 — WANO — 0) < an~’), 

Or = (0:(0 — WANO — 0) > bn". 
El criterio (6) adoptará la forma 

(6 OEI" = 0n > È 
o bien (véase el teorema 13.2) 
LUX, OI HON AX A > È. 0) 

El criterio de relación de verosimilitud no variará, evidentemente, ya que 
el valor máximo de Jo(X) en la región O, no depende de la sustitución de 
las variables (después de la transformación correspondiente de las regiones 
de 8). 

También cabe señalar que la forma del criterio (9) es, a veces, más cómo- 
da que la del (5) y el (6), puesto que no está relacionada con los cálculos 
de ĝ*. Sustituciones análogas pueden hacerse con arreglo a los criterios 
(2) y (3) en los teoremas 1 y 2. Le dejamos al lector que las haga él mismo, 

Observación 2. De un modo absolutamente análogo al teorema 3 se 
puede construir el criterio asintóticamente minimax para los problemas A 
que pueden ser reducidos al problema B examinado en el ejemplo 9.5. 

Observación 3. En el $ 13 hemos construido el criterio asintóticamente 
bayesiano para verificar la hipótesis {9 = 8; } frente a {9 + 6,], el cual tiene 
la forma del c.ry. 

fe 


fa 


Ahora bien, este criterio, siendo el c.a.b., también posee propiedad asintóti- 
camente minimax al verificar la hipótesis {8 = 6, } frente a ((0 — 01)7(01) x 
x (0-0) >b*%n7!)] para cualquier b > 0. 

4. Criterio asintóticamente minimax de pertenencia de la muestra a una 
subfamilia paramétrica. Ahora examinaremos el c.r.v. en un problema más 
complejo de verificación de la hipótesis Hı = (0€01] frente a H = 
= (9 € 02) cuando la dimensión / del subconjunto ©; es positiva pero me- 


se 
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nor que k > 1. Supongamos que tenemos la función suave 0 = g(a) del 
parámetro /-dimensional (/ < k) œ € 41 C R’. La imagen del conjunto Ar 
en O, engendrada por la aplicación de g, podemos designarla por O. El 
problema consiste en verificar la hipótesis Mı = (6 € 81) de que el pará- 
metro ĝ pertenece a la “curva” O, (o bien de que X € Psa) para cierto 
a € A) frente a la alternativa adicional {X € Ps; 00, ), así que en este 
caso O, = 881. Con otras palabras, éste es el problema de verificación 
de la pertenencia de la muestra X a la subfamilia paramétrica de distribu- 
ciones (Para); a € Ar). 

A esta clase de problemas pertenecen, por ejemplo, los problemas ya 
conocidos de verificación de la hipótesis {X € Bao] frente a 
LX € Bao; a: * a) para un valor de ay dado y un valor de o? desconoci- 
do, o los problemas de verificación de la hipótesis {X € Pao) frente a 
{X € Ba.cs; 0 = 00) para un valor de vo dado y un valor de œ desconoci- 
do, y otros. 

En cuanto a la curva 0 = g(a) en ©, supondremos que la misma es 
dos veces continuamente derivable, y que la matriz G = Udg:(a)/doyll 
(is 1, n Ki j= 1, ..., l gila) y a son las coordenadas de g(a) y a, respecti- 
vamente) tiene el rango /. Esto quiere decir que podemos realizar la sustitu- 
ción biunívoca derivable del parámetro (la reparametrización del problema) 
de modo que las primeras / coordenadas (sin limitar la generalidad se puede 
suponer que las mismas constituyen œ = (a, ..., œ) determinen la posición 
del punto 9 en la curva 61, y las demás (designémoslas por $ = 
= (Bi, ..., Bk- 1)) que determinen la posición de 0 en el “plano” (subespa- 
cio), digamos, ortogonal (pero no obligatoriamente) a la “curva” g(a) en 
el punto a. Entonces, el problema se reduce a la verificación de la hipótesis 
(8 = 0) frente a [8 = 0) siempre que exista el subparámetro “obstaculiza- 
dor” desconocido «. 

En este caso examinaremos las hipótesis semejantes, suponiendo que 
B= y"n-"?, y comprobaremos la hipótesis (y” = 0) frente [y” e 0), 


o frente a 
ly” Mlady” > b?) (10) 
para b> 0 y para cierta matriz definida positivamente Ma(a). 

En las coordenadas iniciales, el último problema corresponderá a la ve- 
rificación de la hipótesis Hı = (0 € 01) frente a las alternativas semejantes, 
cuando el parámetro ð se sitúe en el entorno n~ '? de la curva ©; y perma- 
nezca fuera de cierto “tubo” que contiene O, y corresponde al conjunto 
(10). También es posible otra variante de planteamiento del problema de 
verificación de las hipótesis semejantes, la cual parte del hecho de que el 
parámetro 0 está “localizado” y sabemos que el mismo se halla en el entor- 
no de cierto punto fo = g(a”), a” €A. Entonces, el nuevo parámetro 
T= (8B,a — a”) será localizado cerca del punto m = (0,0). Pongamos 
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a- a° = yn", B=y"n""? y comprobemos la hipótesis (y” = 0} 
frente a [y” 540] o frente a (y” Ma(a*)y”* > b?) al disponer del pará- 
metro localizador y”. 

Los resultados que nos interesan en estos dos planteamientos de los 
problemas coinciden prácticamente. Sin embargo, es más cómodo investi- 
gar el segundo planteamiento, puesto que en este caso disponemos de todos 
los resultados previos necesarios. La suposición acerca de la localización 
del parámetro 6 tiene carácter convencional, y la forma de las afirmaciones 
obtenidas más abajo no dependerá de fo. 

Así pues, consideraremos que el nuevo parámetro 7 = (a — a°, 8) tiene 
la forma 


r=, y (y, 1), 


y comprobaremos la hipótesis M= {y" =0] frente a H= 
= (y"M2y"" > b?), donde en calidad de Mz = Mz(a°) tomaremos la 
matriz de información de Fisher para la familia paramétrica (Pa(o,5)) en 
el punto $ = 0, donde (7) = 0 ((a — a”, B)) es la función que reconstruye 
9 según el valor de 7=(7",7"). 

Teorema 4. Supongamos que 0 = g(a”) es un punto interior de 0, y que 
en el entorno de este punto se cumplen las condiciones (RR). Supongamos 
también, que la función g(a) es dos veces continuamente derivable en el 
punto œ? y que la matriz G = ldgi(a)/dajllaz a” tiene el rango I. Entonces, 
para O, y 0» definidas anteriormente, así como para c correspondiente, el 
criterio de relación de verosimilitud equivale asintóticamente a los criterios 


Lux) 
RX) = eh, 
e Saa 0 3 k qu 


(6 -= (UNICA - ay > hen", 
(6 = (A YIÓ NÓ" — gar)” > hen”! 


a2) 


y es el criterio asintóticamente minimax de nivel asintótico 1 — € para 
verificar la hipótesis Hi=(0€01) = {y" =0} frente a M= 
= (y May" 7 > b°). 

La distribución de la estadística 2 1n R(X) para X € Pao") (o sea, para 
la hipótesis Hı) converge, cuando n — œ, hacia la distribución x? de k — 1 
grados de libertad (y, por consiguiente, no depende de fẹ y a°). De acuerdo 
con esto, te en (11) y (12) significa la cuantila de orden 1 — e de la distribu- 
ción Hk—1. 

La potencia asintótica garantizada del c.rv. es igual a P((E1 + b} + 
+ E +... + thi > lu), donde ti € Lo, y son independientes. 

Vemos que los criterios asintóticamente minimax (11) y (12) no están 
de ningún modo relacionados con a°. 
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Observación 4. La hipótesis A, en términos del parámetro inicial 9 
puede ser escrita de la forma siguiente: 


H = 
= [inf 0 — gla + yn ECO — gla? + y'n- > bènt. 


Recordemos que consideramos limitado el conjunto I;, ya que aquí 
(0 — 00) < Nan~’, ly*1 <N para cierto N > 0. 

Observación 5. Como veremos de la demostración, la afirmación del 
teorema conservará por completo su validez si la hipótesis Mı = (y” = 0} 
es sustituida por Ar = [y” May”? < a?), a < b, con la sustitución respec- 
tiva del conjunto 81. 


Demostración del teorema 4. En calidad de criterio “principal” aquí examinaremos el 
criterio (11) equivalente a (1) y más cómodo en cuanto a su forma. Además estableceremos 
la equivalencia asintótica del mismo respecto al criterio asintóticamente minimax, y luego, 
su equivalencia asintótica a (12). 

Examinemos las distribuciones Pe y Pac) como dependientes de los parámetros 
T= (1,1") ya = 1" + a°, respectivamente. Pongamos r = yn”, y = (y”, y”), de modo 
que 7’ =y'n7 12, r” = y*n”'?, y comprobemos la hipótesis Hı = (y” = 0) frente a 
Hi = (y*May"" > b*), donde M: es la matriz de información de Fisher para la familia 
Pro) en el punto a°, Efectuemos ahora una transformación más del parámetro, semejante 
a la realizada en el ejemplo 9.4 y la cual convierte las matrices de información en matrices 
de unidad. Supongamos que e = 7A y que, respectivamente, ô = yA (0 = dn”"?), donde 
A es una matriz triangular, semejante a la descrita en el ejemplo 9.4 y la cual posee las pro- 
piedades siguientes: 


Tie ATM-'A = E, J AMIM = E, 
donde J, M, Ja, Ma son matrices de información en el punto 6s para Q, 7, q”, 7”, respectiva- 
mente (las tildes superiores y las designaciones tienen el mismo sentido que en 7’, 1”, y’, 
1”), Az es la matriz del orden (k — /) x (k — /), formada por los últimos k — / renglones 
y columnas de la matriz A, de modo que q* =7*A2, 8% = y” Az. 
En nuevos parámetros las hipótesis Æ y Ha se escribirán de la forma siguiente: 
H = 18" 0), H = [18°] > b). 

De las propiedades de las transformaciones realizadas se deduce que $ = bo) es una fun- 
ción biunívoca de q y que todas las familias paramétricas examinadas (incluso con parámetros 
Q’, e”) satisfacen las condiciones (RR). Pongamos Qo = 9” '(%) (ésta es la solución de la 
ecuación a(o) = 00), 

ZÀ) = fatest oO (O, Yolu) = In Zo(un= 12), 
Hagamos uso del teorema 2.29.3. Para tul < ôV, X € Pew obtenemos 
a= go + ên, 


Yolu) = (Ea + & u) — jo u) + (lul? + 18?hen(Y, u, 8), 03) 


donde lea(X, u, 81 < £a(X) > O uniformemente respecto a ô para 18l < V7, donde ô. es 
eas 
una sucesión arbitraria que converge a cero. En estas igualdades hemos utilizado el hecho 
de que la matriz de información para el parámetro o es una matriz unidad. El vector £n es 
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el vector de las funciones derivadas n~™*L(X, 0(2)) respecto a oy en el punto g = go + 
+ 8n7 2, de modo que $ € #o,e uniformemente pepe a g (respecto a 8) cuando 
181. < ô V7. (En vista de la suposición de que (9 — 00) Va está limitada, aquí y más adclante 
es suficiente establecer la uniformidad de convergencia para 151 < N, cuando N se ha registra- 
do arbitrariamente. Sin embargo, nada nos molesta establecer también la uniformidad necesa- 
ria en una región más amplia 181 < h Vn => 0) 

Ahora supongamos que u = (u”, u”), u” = O en (13). Entonces, según el acuerdo ante- 
vol reia on silos cos oiden podao scr 


Yollu’, 0) = (E + 5", u") = qu u) + (lu + 181?)ea(X, u’, 5). 4 
De (13) y (14) se deduce que los valores máximos de Ya(u) y Yo(u”, 0) se alcanzan, respectiva- 


ite, para 
ii u = (n + ONE + aX, 8) 
u’ = (E + SNE + e X, 5), 
donde caX, 8) 2 O, (XK, 8) >» O uniformemente en 3, 181 < da vñ/2. Tan sólo es ne- 
Pro 

cesario notar que la probabilidad de grandes valores de Ië, + 81 es uniformemente pequeña, 
ya que E, + 3 el ts, uniformemente end, 151 < d, VA y Pa(lEs + 81 > ôn V7) > O uniforme- 
mente en ô, 181 < ô VA/2. 

Volvamos ahora a examinar el crv. Para 0 = 05, X € Po, q = go + 617" tenemos 


wpa sup era 


as 


R(X) = 


po s 


=op fpe ETS >]. 46) 


donde la función £, con diferentes índices converge a cero en Peprobabilidad uniformemente 
cuando 181 < ôn Vri: 


2in R(X) = IY* +5", YE tos, an 
uniformemente en ô. 

En vista de que para 0 = g(a) con la necesidad de 3” = 0, de aquí resulta la afirmación 
del teorema respecto a la estadística 2 ln Ri(X). 

Recordemos ahora que (véase el teorema 2.29.3) £, = u"(E + es(X, 5)), donde u’ = 
sig = o) 0° Cs Ia axan. para el parámero o: De aquí y de la igualdad qo = 0, suponien- 
(e* — e0)Yn, obtenemos 
EIET VALG? = go) + 

+ Ual X, 8) = 8° + U°EnlX, 6) € Pue, 
Etar = 07 + (e 0) 
Por lo tanto, el segundo miembro en (16) también puede ser escrito en la forma 


0 a}, ez (X, 8) — 0. Esto quiere decir que el criterio 
Pe 


UE)? > he (5) 
y el crv. son asintóticamente equivalentes, o sea, 
lim sup Pra (RIGO > 022) = limn sup Palè" > Ae) = 8, 
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lim sup PARIO > eë?) = lím sup Ps(18')7 > Ae) = 
naa EÒ: n~a 6cÓs 


= sup UY +871? > he) = P(O + b) +y? > hh 
lamer 


donde y, € %o., son independientes. 

Demostremos ahora que el criterio (18) es un criterio asintóticamente minimax de nivel 
asíntótico 1 — e. Hagamos uso del teorema 14.2. En nuestro caso, 5* = (Q" — 00) Va € Lu.g. 
El problema B para Y E %s,s se ha examinado en los ejemplos 9.3 y 9.4, Allí hemos estableci- 
do que el criterio 

177 > he 
es minimax y de nivel 1 — z. Por consiguiente, de acuerdo con el teorema 14,2, el criterio 
(8) es asintóticamente minimax. 

Para terminar la demostración nos queda establecer la equivalencia asintótica de (11) 

y (12). Esta equivalencia se deduce fácilmente de los resultados del $ 2.29 y del lema 14.1. < 


Ejemplo 1. Supongamos que X € ®t, donde A y a? son parámetros 
escalares. (Aquí utilizaremos el símbolo A en vez del œ tradicional para que 
no haya confusión con el argumento de la función g(a)). Es necesario veri- 
ficar la hipótesis (A = o] frente a (A >») o frente a (la-=» | > 
> bn” '?), b > 0, cuando o se desconoce. Sabemos que en este caso las 
ey.m. tienen la forma siguiente. Si ambas componentes A y g? del vector 
9 = (À, 0?) se desconocen, entonces la ev.m. para 9 es 


ds SE A 
0-65), SL Dyo- a 
tmi 

Si A = Mo, la evm. para g? tiene la forma (0%) = S =L Y, 
así que g(&") = Oo, SẸ). Como 

JX) = Tra) ap (a) E, 
el criterio de la relación de verosimilitud (11) tiene la forma 

R/S? > c. 
En virtud de la igualdad S? = S? + (X — do)”, este criterio equivale al 
criterio 
Iž- dl/S> a. 09 


Pero éste es el conocido criterio de Student que hemos examinado anterior- 

mente (las propiedades óptimas de este criterio se exponen en el $7). 
Es fácil comprobar que el criterio (12) tendrá esa misma forma. En efec- 

to, en el $2.16 hemos visto que la matriz /(9) para la familia ®, tiene 


la forma 
= o 
w= Ca Qo ) 
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En nuestro caso ĝ* — g(4") = & — Mo, S? — SD = (x — do, nx — MY), 
5? o 
yy = A 
mo sy) 
Como en el primer miembro (12) figura el cuadrado de la norma 
Kg(a*) — 6)12(6")1*, el criterio (12) tendrá la forma 
GM, A» 
A 
que, evidentemente, equivale a (19). a 

Si en vez de (8°) aquí utilizamos I(g(4*)), obtendremos el criterio asin- 

tóticamente equivalente 
IX 001/51 > Ct. 

Ejemplo 2. Supongamos que X € $o». Se necesita verificar la hipóte- 
sis {g = 00) frente a (lo? — ol > bn” '?) cuando se desconoce A Aquí, 
la ev.m. Ô" para 0 = (A, a?) será, evidentemente, la misma que en el ejemplo 
precedente, Si g = 0, entonces X* =x, de modo que g(a") = (x, o), 
6 — g(a") = (0, 08 — S°). 

Los criterios (11) (o, que es lo mismo, el criterio de relación de verosimili- 
tud) tienen la forma 


(S? — 0bY/08 > 2hen”", 
que equivale, evidentemente, a 
158%0$ — 11 > Vihen", 


donde %o,1((A27, œ)) = e/2. Este criterio también ya fue examinado en 
el $7. 


$ 16. Criterio x?. Verificación de las hipótesis 
por los datos agrupados 


1. Criterio x?. Propiedades de optimización asintótica. El criterio x? como 
tal se destina a verificar, basándose en la muestra X de la distribución 


polinomial Ba, € = (6,, .... 0,), 0 = 1, la hipótesis simple Hı = {9 = p) 
la 
frente a la alternativa adicional Az = (8 + p), p = (Pi, ..., P2). La distribu- 
ción polinomial Bs se describe por las probabilidades 0 = P(A;), 
i= 1,..., 1, de que se produzca, en cada prueba aislada, uno de los r sucesos 
disjuntos 41, ..., Ar. El elemento x; de la muestra X de esta distribución 
puede representarse como uno de los vectores e, ..., e, con r coordenadas. 
La coordenada del vector ex(r — 1) es igual a cero, y la coordenada del 
número k es igual a 1. En este caso x; = ex si se ha producido el suceso 
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Ax. Designemos vor yx el número de veces que se produce el suceso Ax 


en n pruebas independientes. Entonces » = (»1, ..., y) = Dx es una esta- 
la 

dística suficiente para 0, ya que la función de verosimilitud fọ(X) tiene la 

forma 


SA% = 11 0t. 0) 
m 
La estadistica x? es, por definición, 


_ Vr 
eo = JU, 


imt 
y el conjunto crítico del criterio x? (la región de aceptación de Ah) tiene 
la forma 

0 c 
donde c se elige según el nivel de significación establecido. 

Ahora examinemos más detalladamente el problema antes enunciado 
acerca de la verificación de la hipótesis Mı = (0 =p] frente a 
H = (0% p). 

Está claro que las distribuciones {Bọ} forman una fami 
que no depende del parámetro k = (7 — 1)-dimensional (01, 


paramétrica 
r- 1); el va- 


ra 

lor de 0, se define por la igualdad 0, = 1 — 3;0,. El vector (01, ..., 0,- 1), 
imi 

al igual que el (1, ..., 9,), será designado con la letra 8. Esto no provocará 

equivocaciones. La región 9 no es otra cosa sino el simplex 0, > 0, 


¡=1,...r— 1. $0 < 1. La función logarítmica de verosimilitud L(X, 6) 
es igual a en 
L(X, 0) = Ð wxInó = Ð lx, 0). a) 
kai la 


La familia {Bə} satisface las condiciones (40), (4), (Ac), y también las 
condiciones de regularidad (RR) en cualquier punto interior de €, o sea, 
en cualquier punto 6 para el cual todos 6 > 0. Efectivamente, en nuestro 
caso 


1(41,0) = in; para xı = ej; 


er' para xı = êj, 
200,0) - Es pia o 


9% o para xi% ej, Xi 5% ên, 
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è para xı = €, 
A 18, 
y aa =} =o? para xı =en W 
aiia 0 para xı % êj, Xi * e, 


donde ôy es el símbolo de Kronecker. De estas fórmulas se deduce que 


Plx,0) _ _ b), zen Jeri 
90,00, En 
Parte de las condiciones (RR) ai con la existencia de las espe- 
ranzas matemáticas, aquí se cumplen evidentemente, ya que en nuestro caso 
el conjunto x es finito. 
De (3) o (4) se deduce 


tro = - [e2] po, 1 
KO) = Uyo) Mea 0/08, | ll + Al (5) 
j=l, r- 


Si en esta matriz sustraemos la primera fila de todas las demás y luego 
utilizamos el desarrollo en elementos de la primera fila, obtenemos 


1x0)! = ( + Zai y'= Œ a)” 


Así pues, O < 1(0)1 < œ si TĪ % >0, o sea, si el punto 0 es el punto 
rm 
interior del simplex ©. 
Por lo tanto, vemos que podemos utilizar los resultados de los $$ 13 
y 14 en los criterios asintóticamente óptimos. De estos resultados se 
desprende que para verificar la hipótesis Æı= {0 =p) frente a 
Hha = (0 # p} existe un ca.b. que coincide con el criterio de relación de 
verosimilitud 
SR > 
FO? 
Este mismo criterio será asintóticamente minimax para verificar Af, frente 
a la hipótesis 1(9 — p)X(0N6 — p)” > b?n”*) (véase el teorema 15.3). 
Para hallar de una forma más cómoda la región crítica (6), es necesario 


calcular el valor de f(X). Derivando (2) respecto a 01, ..., Ór—1, Ob- 
tenemos 


(6) 


o 
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Igualando a cero estas derivadas, obtenemos que la ev.m. equivale a 


Cn», 
Asi que Ô? = n~ '». 
Ahora bien, pasando a los logaritmos, el criterio (6) se puede escribir 
de la forma siguiente: 


Daa ” 
Yoo = Dni >a. mM 
m 
De acuerdo con el teorema 13.1 (véase también el lema 13.1), la'estadísti- 
ca 24*(X) para la hipótesis Æ, tiene una distribución límite x? con 7 — 1 
grados de libertad. Por eso obtendremos el criterio de nivel asintótico 1 — £ 
si ponemos cı = he/2, donde he es la cuantila de la distribución A, 1 del 
orden de 1 — e, 
¿Qué representa en nuestras condiciones el criterio z’ asintóticamente 
equivalente a (6), obtenido en el teorema 13.2 y que tiene la forma 


A" — PKP = p) > he? (8) 


em 
1), s= 24, obtenemos 


ta 


Para t = (h, 


(9) 


donde 


t=-s En=0 (10) 


Suponiendo £ = ĝ* — p y notando que la condición (10) está cumplida, en 
calidad de (8) obtenemos 


mar 
ES he. an 


let 


Esto no es otra cosa sino el criterio x”. De las afirmaciones citadas 
se deduce que xX?) € Hr 1. 


27— 8030 
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El criterio x” en el teorema 13.2 equivale asintóticamente a (7) y (11) 
y tendrá la forma 


L E 2 
AA EN a23 
r 


ta 


Teniendo también en cuenta el teorema 15.3 y la observación 15.1, podemos 
resumir lo dicho en la forma de la afirmación siguiente. 


Teorema 1. El criterio (7) para c, = he/2, así como el criterio x? (11) 
y el criterio (12) tienen un nivel asintótico 1 — £ y son los cab. para verificar, 
basándose en la muestra X € Bo, la hipótesis (9 = p) frente a (0% p). 
Estos son, a su vez, los criterios asintóticamente minimax para verificar la 
hipótesis (0 = p) frente a la alternativa (Lo -= py > tèm) para 
cualquier b> 0. he 


La equivalencia asintótica de los criterios (7), (1 1) y (12) también podría 
ser establecida directamente, utilizando el desarrollo en serie de >, = 
s mí gan wy en 0. 

npi 


Estos criterios son asintóticamente no paramétricos, ya que la distribu- 
ción límite de las estadísticas que se utilizan en ellos es “absoluta”, o sea, 
no está de ningún modo relacionada con la naturaleza de la distribución 
inicial. 

2. Aplicaciones del criterio x°. Verificación de las hipótesis por los datos 
agrupados. El criterio x? está ampliamente difundido y su importancia sale 
fuera de los límites del problema examinado en el apartado anterior. 

Volvamos a examinar el problema general concerniente a la hipótesis 
Hı = (X € Pı) frente a Fh = {X € P, P # Pı} que hemos estudiado en 
el § 12. Puesto que la teoría de los criterios óptimos se ha desarrollado, 
en cierta medida, sólo en el caso paramétrico, es natural que se trate de 
“parametrizar” de algún modo este problema”. 

En el caso general, la manera más simple y natural de hacer esto es 
la agrupación de los datos, que consiste en lo siguiente. El campo de los 
valores posibles de las magnitudes sujetas a observación (o sea, el espacio. 
Z) se divide en r regiones disjuntas A1, ..., Ar, y en vez de la observación 
xy sólo se indica el intervalo Ax donde esta observación ha ido a parar. 


* Se tiene en cuenta un parámetro de dimensión finita. Cualquier problema puede consi- 
derarse paramétrica si se admite un parámetro de dimensión infinita, ya que éste puede ser 
identificado con la distribución P, X € P. 
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Con otras palabras, reducimos la precisión de las observaciones, y los 
xy que cayeron en Ax pueden ser sustituidos por un solo valor zę € Ax. Claro 
está que eligiendo una división bastante completa, podemos aproximar la 
observación x; mediante zę tan exactamente como se quiera. 

Así pues, la agrupación conduce a que la observación x; es sustituida 
por el vector ex si se ha producido el suceso Ax = [xy € Ax] (los vectores 
ex han sido definidos al principio del apartado anterior). Pero la nueva 
muestra obtenida como resultado de tal operación, evidentemente, no es 
otra cosa sino la muestra de Bo, 0 = P(x; € Ar). Ya sabemos que en este 
caso, el vector p = (vı, ..., vr) de frecuencias de caídas en los intervalos 
Ar, «.., Ar será una estadística suficiente. 

La reducción realizada de la muestra X al vector » es precisamente la 
llamada agrupación de los datos. 

Por supuesto que tal agrupación está relacionada con cierto “empobre- 
cimiento” de la muestra X y con una pérdida parcial de información. 

La parametrización realizada también puede ser considerada desde otro 
punto de vista. Supongamos, para evidenciar, que 2"= R y que todas las 
distribuciones que han de ser estudiadas, están concentradas en un interva- 
lo finito y tienen densidad, o sea, si facen la condición (4y), donde y 
es la medida de Lebesgue. Con la partición A1, ..., A, establecida, examine- 
mos, a la par con la densidad f(x), la TF constante a trozos 


P TA a 4 


pjena = -z Para Xx€ Aj. (13) 


Donde A, también designa la longitud del intervalo Ay. Esta es la familia 
paramétrica de las distribuciones Po, Ps(8) = [ax 


La muestra Y de Po podrá ser obtenida si para cada k recogemos todas 
las observaciones de X € P que han ido a parar a Ax y luego las “dispersa- 
mos” por Ax uniformemente y al azar. En realidad esto es lo mismo que 
hemos hecho antes, ya que los datos que indican en qué punto del intervalo 
As se encuentra la observación y,, no contienen ninguna información acerca 
del parámetro 6: la función de verosimilitud fə( Y) no cambia después del 
“desplazamiento” de las observaciones dentro de los límites de sus interva- 
los. Por lo tanto, sólo es suficiente saber las cantidades »1, ..., », de observa- 
ciones que fueron a parar a âi, ..., Ar. 

Está claro que si f(x) es una función suave, fe(x) aproximará bien Xx) 
siempre que la partición de (A;, ..., Ar] sea bastante “menuda”. 

Las relaciones (13) significan otro método de parametrización, equiva- 
lente al primero, Tal equivalencia resulta de la coincidencia de las funciones 
de verosimilitud, con una exactitud de hasta un factor que no depende del 


a 
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parámetro. Para la distribución (13), dicha equivalencia es igual a 
Jm = Y OIL ar”, 


donde el primer factor es la función de verosimilitud de la muestra de Bo 
(véase (4)). 

Cabe señalar que la agrupación de las observaciones a menudo también 
surge por sí misma no para fines de parametrización, sino simplemente 
como un método cómodo y económico de anotación de la información 
que contiene la muestra. Si, por ejemplo, n = 10* y la precisión de las medi- 
ciones de los valores observados en [0, 1] es comparable con 0,1, entonces 
claro está que prácticamente no merece la pena conocer todas la 10* obser- 
vaciones y es suficiente indicar 10 frecuencias »1, ..., vio de caída en los 
intervalos Ay = ((i — 1)/10, ¿/10), i = 1, ..., 10, o sea, basta conocer tan 
sólo el histograma de la muestra. 

Volvamos al problema de verificación de la hipótesis Mı = (X € Pı) 
frente a Ha = (X € P # P1}. Supondremos que la referida agrupación de 
observaciones es tal que la desviación (importante para nosotros) de la dis- 
tribución P de la muestra X respecto a P; se reflejará obligatoriamente 
en las distribuciones de los datos agrupados. Entonces, nuestro problema 
se puede considerar como un problema de verificación de la hipótesis 
10 = p), donde p, = P1(A)), frente a (0 > p), para las familias paramétri- 
cas Be o (13). Como ya sabemos, en este problema, el criterio x° (al igual 
que los criterios (7) y (12)) será asintóticamente óptimo desde el punto de 
vista enunciado en el teorema 1. 

Además, el criterio x? no es asintóticamente paraméftrico, ya que, para 
la hipótesis Hı, la distribución límite de la estadística x*(X) no depende 
de la distribución inicial de la muestra X. 

En este caso cabe señalar que la verificación de la hipótesis [0 = p} 
para las familias (13) o Bs no es, a pesar de todo, equivalente a la verifica- 
ción de la hipótesis (X € Pı ),aunque, con una partición abundante de 
141, ..., Ar], ella pueda ser próxima a esta última. En efecto, para la mues- 
tra X se verifica la hipótesis X € P, P(A;) = pr = P1(4,). Esto contribuye 
a que el criterio x? sea inconciliable respecto a las alternativas P # P; para 
las cuales 0, = P(A;) = P1(4/) = pi. Por eso indicaremos una vez más, que 
el criterio x? es un criterio que posee una serie de propiedades de optimiza- 
ción asintótica, pero que actúa exclusivamente contra las alternativas que 
modifican el vector 0, o sea, contra las alternativas para las cuales 
(P(49) + [Pi(4)) = Lp). 

Hagamos algunas observaciones concernientes a las aplicaciones de los 
criterios x?, (7) y (12). En este caso hablaremos fundamentalmente tan sólo 
del criterio x”, ya que, por un lado, dichos criterios se asemejan unos a 
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otros y, por otro lado, el criterio x? históricamente (en parte, debido a su 
evidencia) adquirió una aplicación mucho más amplia. 

El nivel de importancia del criterio x"(X) > h, es igual a 1 — e única- 
mente en el “límite”. La experiencia muestra que para e > 0,01, el verdadero 
nivel de importancia de este criterio se aproxima satisfactoriamente, me- 
diante el valor de 1 — æ, sólo cuando 7p; > 8, i = 1, ..., 7 

Si el número de grupos 7 es grande, digamos, cuando n > r > 30, se 
puede utilizar la aproximación normal tanto para la distribución 
ar OÊ = rh xX? G H; (véase el $ 22), como también, en caso de la hipó- 
tesis Ff,, para la distribución de la estadística x*(X) normalizada por los 
momentos 


MW =r-1, 


DAX) = Ar - D+ (Èr r 2). 
1 
Con frecuencia también se utiliza la aproximación normal do, , para dis- 
tribuir la variable aleatoria (véase el $ 2.2) V2x? — V2r — 1, x? € Hr. 
También debemos señalar que al aumentar el número de grupos mejora 
la aproximación de la densidad f(x) mediante una función escalonada cons- 


truida según los valores de P:(4) = f fix)dx. Esto significa que aumenta 


el número de alternativas que no concuerdan con H, y que el criterio x? 
se transforma cada vez más en criterio de verificación de las hipótesis acerca 
de la densidad. De acuerdo con esto, al aumentar el número de grupos, 
la potencia de los criterios x? de nivel registrado disminuirá (compárese 
con las observaciones del párrafo anterior acerca del criterio de Morán. 
Esto se analiza más detalladamente en [12] y (21). 

Como defecto del criterio x? debe considerarse el hecho de que en una 
serie de casos de partición (4), ..., A,] hay que establecer la estadística. 
Aquí es necesario tener cuidado, ya que en este caso se introduce un elemen- 
to de subjetivismo en el “empobrecimiento” de la muestra X. Además, a 
veces esta partición se elige en función de la muestra X, lo cual, hablando 
en general, no siempre es admisible, ya que, a su vez, A; se vuelven aleatorias 
(esto se examina más detalladamente en [49], p. 575). 

Ejemplo 1” En la ciudad N, un individuo observó las indicaciones de 
500 relojes expuestos en las vitrinas de distintas relojerías. Los resultados 
de las observaciones fueron divididos en 12 grupos (conforme a la posición 
del horario en la esfera). He aquí la tabla de las observaciones obtenidas: 


® Este ejemplo se ha tomado de [25]. 
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Intervalos en 4) 4—s | s—s| 61/78] 8—9] 9—10 | 10-11 | 112 
la esfera 

Número de 
observaciones 


39 


Se verifica una hipótesis simple: Hı = (/a distribución de la posición 
del horario en la esfera según los grupos de horas es uniforme) frente a 
la alternativa adicional compuesta. 

En este ejemplo, n = 500, pi = 1/12, i = 1, ..., 12, npi = 41,67. A base 
del teorema 1 podemos considerar que x*(X) € Hı, aproximadamente. Sin 
embargo, en nuestro ejemplo, mediante el cálculo directo nos convencemos 
de que x(X) = 10, y el nivel realmente alcanzado del criterio x? es aproxi- 
madamente igual a 1 — A11((10, co)) = 0,47 (véase la tabla III). Esto signi- 
fica que los resultados del experimento concuerdan con la hipótesis Hi 
desde el punto de vista del criterio x? de cualquier nivel 1 — e situado entre 
0,47 y 1. 

Ya hemos señalado que el criterio x? está muy difundido. Además, la 
esfera de su aplicación consiste no sólo en verificar las hipótesis simples. 
Uno de tales ejemplos será examinado en el párrafo siguiente, 


$ 17. Verificación de las hipótesis de pertenencia 
de la muestra a una familia paramétrica 


Examinemos el problema de verificación de la hipótesis compuesta Hı = 
(X E€ Pa, QEA) de que la distribución de la muestra pertenece a la 
familia paramétrica (Pajaca frente a la alternativa adicional X= 
= {X € P, P é(Pa)Jaca). Como ejemplo de tal género de hipótesis puede 
servir la afirmación de que X es la muestra de cualquier población normal 
(hipótesis M), así como la afirmación adicional a la mencionada (hipótesis 
Ha). 

Como un segundo ejemplo puede servir la verificación de la hipótesis 
de que X € Bow), donde la dimensión de æ es menor que la de 6. Este 
problema también puede ser interpretado como el problema de verificación 
de la hipótesis de pertenencia de X a una subfamilia paramétrica (véase 
el $ 15). No obstante, la primera interpretación también será cierta, puesto 
que en el caso en que como resultado del experimento sólo acontezca un 
número finito de sucesos posibles (véase la definición de Bo en el $ 2.2), 
la familia Bọ comprenderá todas las distribuciones posibles de la muestra. 

En el apartado siguiente examinaremos el problema de verificación de 
la hipótesis X € Baca) y mostraremos que el problema general de pertenen- 
cia a la familia paramétrica puede ser reducido al primer problema median- 
te la agrupación de los datos. 
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1. Verificación de la hipótesis X € Be). Agrupación de los datos. Exa- 
minemos primeramente el problema general enunciado al principio del 
párrafo y destinado al espacio arbitrario & Dividamos el espacio Zen re- 
giones (“intervalos”) (41, ..., Ay) de tal modo que el número de “interva- 
los” r sea mayor que / + 1, donde / es la dimensión del parámetro œ. 
Realicemos la agrupación de las observaciones en estos intervalos, Si la 
hipótesis Mı = {X € Pa) es cierta, las probabilidades de que las observa- 
ciones caigan en los intervalos A; serán iguales a 


pla) = Pa(An). 
Esto significa que en este caso el vector 0 = (81, ..., 9,) de las probabilidades 
de que las observaciones caigan en A; debe situarse en la curva 
0 = pla) = (pila), ~ plo). 

Ahora bien, a base de la muestra Y € Bọ obtenida en la agrupación, 
debemos verificar la hipótesis H, acerca de la pertenencia de Y a la subfami- 
lia paramétrica Boca) frente a la alternativa [| Y € Bo), donde 0 no se sitúa 
en la curva ô = p(a), œ € A. Este problema fue examinado en el $ 15, donde 
hemos hallado el criterio asintóticamente minimax para verificar H frente 
a la alternativa semejante 


H = (Y € Bo, inf |0 — plao + yn”) (plao + yn?) > bn" Y?) 
“i 1 


(veáse la aclaración 15.3 al teorema 15.4. El punto « significa el valor “Joca- 
lizado” del parámetro, tal que las alternativas se disponen en el entorno 
del punto do = p(«o)). En nuestro caso, el criterio de la relación de verosimi- 
litud (15.11) tiene la forma 


In RICO) = máx Y) » In 0, — máx Y v In po) > h,/2, 
a = 


o bien, que es lo mismo, 


n 
Dan TE? 


donde á” es la ev.m. del parámetro œ según la muestra Y o según el vector 
»= (r, vr). Este criterio equivale asintóticamente (véase el teorema 
15.4) al criterio 


(PA) — vn“ PAYA) — rr?) > hy 
Como la forma de la matriz 7(8} es conocida (véase (16.5), entonces, 
utilizando (16.9), del teorema 15.4 obtenemos el 
Corolario 1. Si r — 1 >! y la función pla) satisface las condiciones 
del teorema 15.4, entonces el criterio de la relación de verosimilitud de nivel 
asintótico 1 — e para verificar, basándose en los datos agrupados, la hipóte- 
sis Hı = (X € Pa, Pa € (Pajaca) frente a la alternativa adicional Hz, es 
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astntóticamente minimax (para verificar la hipótesis Fl frente a (1) y tiene 
la forma 


Ha AD > h/2 o) 


tel 


donde h, es una cuantila del orden de 1 — e de la distribución x? con 
r=1= 1 grados de libertad. Este criterio equivale asintóticamente al 
criterio 


2 (AMD 2 
oo = Ý REDE > a, o 


imi 

Este último criterio también se llama criterio x?, pero en caso de que 
los parámetros “obstaculizadores” desconocidos se estimen con arreglo a 
la muestra. Como se deduce del corolario 1, la distribución de la estadística 
X (X) converge, siempre que se trate de la hipótesis H1, a la distribución 
x? con r — l — 1 grados de libertad (el número de grados de libertad r — 1 
en la distribución límite de la estadística x"(X) ha disminuido en el número 
de parámetros escalares œi, ..., ay que se estiman por la muestra). 

Ejemplo 1. En el ejemplo 2.26.3 hemos descrito el mecanismo de heren- 
cia de los grupos de sangre 0 (cero), A, B y AB. Este mecanismo es controla- 
do por los genes de tres tipos A, B y 0. Las probabilidades de aparición 
de estos genes en una populación dada designémoslas por p, q, 
r = 1 — p - 4. Enel ejemplo 2.26.3 hemos hallado y en la tabla 1 del $ 26 
hemos escrito las probabilidades pi(a) de que una persona tenga el i-ésimo 
grupo de sangre, 

Disponemos de la muestra X con las frecuencias »;, f = 1, 2, 3, 4 (véase 
la tabla 1) de aparición del ¡-ésimo grupo de sangre, obtenida como resulta- 
do del examen de n = 353 personas. En el ejemplo 2.26.3 hemos hallado, 
para esta muestra, los valores aproximados de la ev.m. 4” = (p°, 9) = 
= (0,246, 0,173). Esto nos proporcionó los valores de pi(4*) expuestos en 
la tabla 1. 


Tabla 1. Distribución de las personas según los grupos de sangre 


0,231 
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Hemos recibido la posibilidad de utilizar el corolario 1 para verificar 
la hipótesis acerca de que tiene lugar el mecanismo de herencia de la sangre, 
descrito anteriormente. Con ayuda de la tabla 1 hallamos que, en nuestro 
caso, la estadística 2°(X) (véase (3)) es igual a 0,44, aproximadamente, Esto 
concuerda bien con la hipótesis, ya que el valor crítico A,, correspondiente 
a la distribución x? con un grado de libertad y al valor de € = 0,2, es igual 
a ho,2 = 1,64. 

Ejemplo 2. Problema acerca de los indicios conjugados. Supongamos 
que la muestra X es el resultado de la investigación de ciertos objetos, cada 
uno de los cuales se caracteriza por dos indicios A y B. El primero puede 
adoptar los valores 41, ..., As, y el segundo, Bi, ..., B,. Se pregunta, 
¿ serán esos indicios dependientes o no? Por ejemplo, podemos realizar 
cierto experimento G, obteniendo resultados B, B, en condiciones A1, 

.., As diferentes. El problema consiste en aclarar si os resultados depen- 
den o no de las condiciones en que se realiza el experimento. 

Este problema también puede considerarse como el problema de verifi- 
cación de la independencia de dos variables aleatorias £ y y según las obser- 
vaciones agrupadas en el par (E, 7). 

En nuestro ejemplo, los resultados de los experimentos son una matriz 
de valores |vy], donde vy es el número de aparición de resultados con indi- 
cios A: y B; en la muestra X de volumen » (cada elemento de la muestra 
es un par de indicios del objetó que se examina). 


Designemos py = P(A/B), pi. = PA pu Pym X Po 


Entonces, la hipótesis A; de independencia de los indicios tendrá la forma 
Hı = {py = pi.p.y). No es difícil notar que ésta es la hipótesis de pertenen- 
cia de la distribución de la muestra a una familia paramétrica, donde el 
papel de parámetro æ lo desempeña el vector a = (p, Pa=t.s TE 


ms Pa=1) de s + t — 2 dimensiones (los valores de p,. y py se deducen 


En ta 
de las igualdades p. =1- Y pin pe=1- Y p). 
E J 


La función de verosimilitud de la muestra X, siempre que se trate de 
la hipótesis H,, es igual a 


TJ- m= E wre È ro 
ij i J Jul 


ia 


De los resultados del $ 16 (compárense con los del apartado (16.1)) se deduce 
que la ev.m. &* para tal función de verosimilitud tiene la forma 
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Así pues, en nuestro caso, el criterio x? adquiere la forma 


7w- re nP nper rD y hy 


nip vivaj 


donde h, es una cuantila del orden de 1 — e de la distribución x? con un 
número “de grados de libertad de st — 1 — (s + t — 2) = (s — DU - 1). 

Se pueden señalar muchos problemas aplicados, donde se utiliza el crite- 
rio de conjugación de los indicios que hemos construido. A título de ejem- 
plo examinarenos uno de ellos: el problema de investigación sociológica 
de la relación entre los ingresos de las familias y la cantidad de niños en 
ellas (véase (25), p. 481). 

Ejemplo 2A. Supongamos que el indicio A significa la cantidad de 
niños y adopta los valores Q, 1, 2, 3, > 4. El indicio B indica a qué intervalo 
(0 — 1), (1 — 2), (2 — 3), (>3) (por unidad se han adoptado 1000 coronas 
suecas) pertenece el salario, Según los resultados de n = 25 263 investiga- 
ciones se han obtenido los datos expuestos en la tabla 2. 


Tabla 2 


En este ejemplo, *(X) = 368, 5, lo cual supera en mucho el valor crítico 
de h, para la distribución Xê de (5 — 1)(4 — 1) = 12 grados de libertad, 
incluso con valores de e bastante pequeños. Asi que debemos reconocer 
la inconciliabilidad de la hipótesis Mı = (A y B son independientes (incon- 
jugados)). 

No obstante, debemos señalar que un análisis más minucioso ha demos- 
trado la existencia de una dependencia muy débil entre los indicios A y B. 

2. Caso general. El criterio x? aplicado al problema de este párrafo 
posee los mismos defectos que los indicados con arreglo a los problemas 
del párrafo anterior. 

El problema de verificación de la hipótesis {X € Ps) acerca de la perte- 
nencia de X a la familia paramétrica {Pe }ses también admite, por supues- 
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to, un enfoque más amplio, análogo al expuesto en el $ 12, Elijamos cierta 
distancia d(P, Q) en el espacio de distribuciones. Luego, hallemos el punto 
P, de (Po), inmediato a P} desde el punto de vista de la distancia d. En 
calidad de P,. también se puede tomar Pf», donde ĝ* es la ex.m. (véase 
el $ 2.5) o cualquier otra estimación razonable. Si la hipótesis Æ/, es cierta, 
entonces d(P,., Pz) no debe ser grande y, al contrario, si es cierta Hz, ex 
tonces d(P¿», P3) será considerable. Esta consideración nos ofrece la si- 
guiente estructura del criterio: rechazaremos la hipótesis Hi si 
(Py, P3) >c, y la aceptaremos en el caso contrario. 
El número c debe elegirse de modo que 


sup Po(dP o, Pi) >c) <e, 


o de modo que esta relación se cumpla asintóticamente. El corolario 1 pro- 
pone que en calidad de distancia d(P,., P4) se adopten las estadísticas en 
(2) y (3). Entre otras, estas últimas también poseen la ventaja de que asintó- 
ticamente no son paramétricas: en el caso de la hipótesis H; = {X € Po), 
la distribución límite x"(X) no depende, por ejemplo, de 0. 

Examinemos la realización del enfoque general expuesto anteriormente en dos casos parti- 
culares importantes, cuando las familias paramétricas están formadas por parámetros de 
desplazamiento y de escala. 

1) Supongamos que se verifica la hipótesis X € Ps, 9 € R, donde Px(4) = P(A — 0), 
A CR. Designemos por F(x) la función de distribución correspondiente a P y pongamos 


Fa(x) = F(x — 0). En calidad de d adoptaremos la distancia que hemos utilizado en el criterio 
de Kolmogórow. 


Teorema 1. Supongamos que X € Pa, Fa(x) = F(x — 0) y que la función F(x) tiene una 
densidad uniformemente continua limitada igual a f(x) = F"(2), | 2 fix)dx < æ. Si desig- 
namos | xfxjdx = a, 0* = 3 — a, entonces, cualquier 9 
lim Po(sup VAJERA) — FyuC01 > €) = Plsup [w"FC0) + SO) [wet] > c, 
donde w° es el puente browniano estándar. 

En esta relación, el segundo miembro no depende de 6. Calculándolo para un valor dado 
de F y escogiendo c = c, de modo que sea igual a £, obtenemos el criterio 

Da = sup VAFA) — Pix — 0) > cg 


de nivel asintótico 1 — £ para verificar la hipótesis Hi de pertenencia de la muestra X a la 
familia paramétrica (Py), donde 9 es el parámetro de desplazamiento. 
Demostración del teorema 1. Examinemos el proceso 


Wal) = VIENS) — Fpl) = wala) — (Eg) — Pola), 
donde wa(x) = Vn(Fi(x) — Fe(x)). Para t — 6 tenemos 
FAX) — Fox) = (0 — DU 0) + elt, 8, xD, 
lelt, 0, 2) < ap q 


donde wa es el módulo de continuidad de la función /, el cual no depende de x, wa +0 
cuando A — 0. Como € ~» 8, entonces, ponicado z = 6* y adoptando, sin limitar la generali- 
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dad, a = 0, obtenemos 
VEO — Foo) = -S — 8) | VAFAN — FAO] + 060%, 8, 2) = 
= -fx — 0) | tdwalt) + e6", 6, x), 
le(8", 0, x)| < o8" — 0) m VAJE — Olga ze 
Seguidamente, la funcional 


x 
Hwa) = sup Iwate) = fx = 0) | wld 

para cualquier N > O, es continua en la métrica uniforme. La sustitución de la variable x 

por Fi Uy) = 0 + F”'(y), cuya ejecución natural para la aplicación del teorema 1.6.3, no 

modifica este hecho. Por eso, en virtud del teorema mencionado, 


HG) = sup | wF) 


n 
DARA | WEU- oa). 
iw 


Para demostrar la relación requerida, 
Da = sup "(FO = 0) + Jæ 0) | we — Opar 


(el desplazamiento en 0 del argumento en el segundo miembro no modifica el valor de este 
último) y, en virtud de las relaciones 
[Da — Hiwa) < 8 0) +0 | minar 0) 
n>n 
-go 


sólo queda convencernos que la integral en (4), juntamente con ta integral | w"(F(0d! 

ua 
(pongamos, para abreviar, 8 = 0), convergen, de modo probable, a cero cuando n=, 
N — eo, Por lo visto, el método más simple de estimar ambas integrales consiste en demostrar 
la pequeñez de sus dispersiones utilizando la desigualdad de Chébishev. En vista de que los 
primeros dos momentos de las expresiones subintegrales en ambas integrales se comportan 
del mismo modo, podemos limitarnos a estimar tan sólo una de estas últimas. Examinemos, 
por ejemplo, 


fk "FA. 


En virtud de las relaciones Mw*%s)w"(u) = mín (s, u) + su < 2 min (s, u) cuando s < 1 
y u < 1, tenemos 


“( frewa) <2 Ẹ Y mn eo, Fis))dtds = 


24 Y Como <a | raro 


cuando N => co, ya que | £* dF) < œ. Análogamente se examinan los demás intervalos. < 
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2) Supongamos que ahora se verifica la hipótesis X @ Ps, 8€R, 0>0, donde 
PAA) = P(A/0), A C R. Volvamos a designar por F la función de 
diente a P, y pongamos 


e-Mx= f ran e =i 


Teorema 2. Supongamos que X € Pe, Fax) = F(x/0) y que existe una densidad conti- 
nua limitada f(x) = F*(x) tal, que 


sup AD < o, | fde < e, (5) 


Entonces, para cualquier 0, 
lim Po(sup VAl Fx) = F(x/0") > c) = 


= p(s» IWF + AA) $ cede] <) j 


La demostración de este teorema es absolutamente análoga a la del teorema 1. Tenemos 
Wa) m VALER) — FG/07)) = wafa) — VEC) — Elx/0), 
mat) = VECER) — F(x/0). 


Fax) = Fix) = (G 2) (5) + elt, 0, x), 


donde, en virtud de la relación f(x) < c/|xi y de la continuidad uniforme de f en cualquier 
intervalo finito, se cumple sup [e(£, 6, x)| < wy _ y — O. Poniendo £ = 0* ;> 8, obtenemos 


TGO -"(5))- 
sa (z-i) (G) En 1 (5) a 


donde sup del segundo sumando converge a cero respecto a la Pe-probabilidad. Sólo nos 


Cuando £ +0 


x) 


queda utilizar los razonamientos del teorema anterior (la pequeñez de las integrales 
| nwertnery È tmaiJdt es asegurada por la condición (5)) y señalar que la parte 

mw lia f 

principal W(x) es igual a (adoptemos, sin limitar la generalidad, o? = 1) 


s 
me = RETA filo) = w — f P dwd) = 


= mto - D | ono, 
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mao CENG) EG) 
ORO 


Como la transformación de la contracción respecto a x debajo del signo sup no modifica 


iii 


nada, el teorema 2 queda demostrado. 
El lector también puede obtener resultados análogos para las estadísticas f (Fix) = 
= EM ANO. 


$ 18. Estabilidad de las decisiones estadísticas 


Al construir distintos procedimientos estadísticos en los párrafos anteriores 
— en los problemas de estimación o de verificación de las hipótesis — cada 
vez partíamos de cierto conjunto de condiciones. Estas últimas se referían, 
en particular, a la independencia de las observaciones y a su igual distribu- 
ción, así como a las suposiciones acerca del carácter de distribución P de 
los elementos de una muestra. El incumplimiento de tales condiciones signi- 
ficaría que las afirmaciones respectivas (por ejemplo, acerca del carácter 
de distribución límite o acerca de la optimización de una u otra estadística) 
son, hablando en general, inciertas. 

Por otro lado, en la práctica, las referidas condiciones son, como regla, 
el resultado de la aproximación y la idealización inevitable. Por consiguien- 
te, dichas condiciones suelen no cumplirse de manera exacta y surgen dudas 
acerca de la validez de las recomendaciones basadas en uno u otro procedi- 
miento estadístico elegido. 

Por lo tanto, al igual que en cualquier otra rama de las matemáticas, 
referente a las aplicaciones, aquí es necesario (en la última etapa, antes 
de aplicar los métodos elaborados) aclarar cuán grandes deben ser las diver- 
gencias de las condiciones adoptadas, para que este hecho nos obligue a 
modificar las conclusiones enunciadas. 

Desde el punto de vista matemático, tal procedimiento constituye un 
problema muy parecido al problema de la estabilidad. En los libros editados 
en inglés, para este tipo de problemas se ha adoptado el término “robust- 
ness””, Por eso en los manuales editados en ruso, a la par con el término 
“estabilidad” también se utiliza la palabra “robusticidad”. 

Las divergencias más difundidas de las condiciones antes mencionadas 
consisten en lo siguiente. 


` Robustez o robusticidad. 
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1) En la serie de observaciones X está presente una pequeña porción 
de “desechos”, o sea, de observaciones provocadas por graves errores de 
medición o de registro, o engendradas por cualquier otro mecanismo “obs- 
taculizador”, distinto del sistema sujeto a investigación. Por lo general, la 
separación de dichas observaciones es imposible. En vez de esto se buscan 
procedimientos que sean poco sensibles a tal “ensuciamiento” de la 
muestra. 

2) La distribución de x; no equivale con exactitud a P, sino que tan 
sólo aproximadamente. 

3) Los elementos de la muestra X no son independientes, sino que tan 
sólo débilmente dependientes. 

La tarea consiste en construir las reglas resolutivas para los problemas 
principales de la estadística matemática, que sean semejantes, por su efica- 
cia, a las reglas óptimas y que al mismo tiempo sean insensibles a las referi- 
das divergencias de las condiciones adoptadas o, al menos, a aquellas de 
ellas que para nosotros no tienen importancia. Esta tarea, dificilísima y 
no siempre planteada con exactitud, aún no está estudiada del todo. Aquí 
los resultados tienen un carácter muy heterogéneo. Por eso sólo nos de- 
tendremos en algunos ejemplos típicos. 

1. Estimación de la media para las distribuciones simétricas. Suponga- 
mos que X € P y que la distribución en la recta P tiene una densidad de 
f(t — ax) respecto a la medida de Lebesgue, f(t) = f(— f). Examinemos las 
dos estimaciones siguientes del parámetro œ = Mxı. Una de ellas es 

a'=X, 
que se basa en las cuantilas muestrales: 
r1 
-— Urk w 
koi 
donde 0 < p < 1, r = 1/p es un número entero. Cuando p = 1/2, la estima- 
ción æ** se transforma en la mediana muestral ¿* = ¢}/2. 
Limitémonos por ahora al caso de p = 1/2. Cuando 7 — co tenemos 


y la otra, a 


-aN Ey t= j PRDat. 143) 
Además, en el corolario 2.2.1 hemos establecido que para n = œ 
. 1 
(a — a) vn E Loy, + 6) 


Analizando la demostración de este corolario es fácil establecer que jun- 
to con a” = F* = Xi)» ko = [(7 + 1)/2], esa misma distribución límite se 
observará en el término de la serie variacional xq) para cualquier valor 
registrado de la diferencia k — ko. 


432 CAP. 3. TEORÍA DE VERIFICACIÓN DE HIPÓTESIS 


De aquí se deduce que la estimación œ*" = ț* es insensible (desde el 
punto de vista de sus propiedades asintóticas) al hecho de que a la muestra 
X se agregue cualquier número finito de “desechos”. En efecto, si tenemos 
1 “desechos” cualesquiera en la muestra X, entonces a*” se situará entre 
los valores Y) € Yu donde kı = ko — i, ka = ko + I e Yap k= 1, 

»n — forman la serie variacional de la muestra Y € P de volumen n — i 
Pero las propiedades asintóticas de Y(,) € Y(x,, SOn iguales y coinciden con 
las de la mediana muestral. 

Así pues, cualesquiera que sean los “desechos”, la estimación a” será 
insensible a ellos. Eso no se puede decir de la estimación a* = X, donde 
los referidos desechos pueden influir considerablemente (por ejemplo, 
son comparables, en cuanto a su magnitud, con n). Es fácil comprender 
que la propiedad de estabilidad de œ** también se conservará para pequeñas 
muestras, si el número de desechos / es pequeño respecto a n. Asimismo 
esta propiedad se conservará en el caso en que en vez de ¿* se utilice una 
estadística (1) de una forma más general. 

Por otro lado, para un caso particular importante, cuando P = $, 
hay una ley pormal: el valor de d= oir/20) = (0 V2x)”*) excede 
dispersión oł de la estimación efi ciente a* = X solamente 1/2 veces. Esta 
diferencia entre la eficacia de a”” y a” puede disminuir aún más si las esti- 
maciones (1) se examinan cuando r = 3, 4, etc. Entonces obtendremos una 
estimación a`" casi tan eficiente como X (al carecer de desechos) y al mismo 
tiempo estable respecto a los desechos. Además de (1) se puede tomar la 
media truncada 


(4) 


cuya dispersión también se aproxima con pequeños valores de p) a la disper- 
sión of de la estimación a”. 

Señalemos a continuación, que las propiedades de la estimación a” =X 
dependen poco de las variaciones de P, que conservan la varianza 
à= f PKt)di y, en particular, de las variaciones locales de /(£) en el punto 
1 = 0. En este sentido dicha estimación es estable. Pero su propiedad de 
optimización, que tiene lugar para P = 9,,¿, es inestable. En efecto, su- 
pongamos que para un valor pequeño de e > 0, y 

P = (l — E)ba + U, 


Entonces f(0) = (1 — £)/V2x + 1/2 > 1/2 y, como muestran las relaciones 
(2) y (3), la estimación a”* = ¿;* será mucho mejor (el valor de e debe ser 
pequeño, pero no menor de (1/Yn)). 

Por otro lado, la estimación a” 


asare” 


= $" es estable (se tiene en cuenta 
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su distribución) respecto a las variaciones de P que no afecten el valor de 
SO. 

Las observaciones expuestas también pueden enunciarse de otro modo: 
con arreglo a los criterios estadísticos, por ejemplo, a los c.u.m.p. no despla- 
zados |X — ao| > c para verificar, a partir de la muestra X € La, 1, la hipó- 
tesis Hı = [a = ao) frente a Hz = [ja — ao| > d > 0). 

2. Estadística de Student y 53. Examinemos ahora la cuestión concer- 
niente a la estabilidad de los procedimientos estadísticos (estimación y veri- 
ficación de las hipótesis) relacionados con las estadísticas 


>] 0u = 3P. 
in 

Como sabemos (véase los $$ 3.7 y 3.8), en estas estadísticas se basan 
los criterios óptimos para verificar, correspondientemente, las hipótesis res- 
pecto a la media æ y a la varianza o? de las poblaciones normales en el 
caso cuando se desconoce el segundo parámetro (0? o a) de la distribución 


-e m, sè 


as estadísticas £ y SÍ se comportan de manera diferente con arreglo 
a las alteraciones de las condiciones X GB, ¿.. Supongamos que n es 
grande y X G P, donde P es cualquier distribución, con œ media y con 
varianza finita. Entonces, la distribución f, al igual que en el caso 
X € $,» se aproximará a la distribución normal $o,:. Esto se deduce 
de los teoremas de continuidad ($ 1.5) y del hecho de que 


G - a)Va/VDx; € Los, Si 7D. 


Lo dicho significa que la dimensión del criterio de Student se diferen- 
ciará poco, para grandes valores de n, de la dimensión dada, si incluso 
la distribución P de la muestra X se diferencia considerablemente de la 
distribución normal. 

Esto no se puede decir con arreglo a los criterios construidos a base 
de la estadística Sé. Esta circunstancia se debe al hecho de que la distribu- 
ción límite Sá depende del valor Mx?. En efecto, de las consideraciones 
del capítulo 1 resulta 

(Só — PNR E By, de = MÍ — PP = Di. 
Por consiguiente, la dimensión del criterio construido a base de la estadísti- 
ca Só para una población normal puede diferenciarse considerablemente 
de la dimensión dada, si X € P y P se diferencian de $, ¿2 (pero si coinci- 
den los cuartos momentos de P y $,.,, entonces no habrá diferencia). 

Ambas estadísticas £ y Sá son sensibles al rechazamiento de la suposi- 
ción acerca de la independencia de las observaciones en la muestra X. Si, 
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por ejemplo, todas las observaciones en la muestra están relacionadas unas 
con otras, y el coeficiente de correlación es igual a q, entonces, adoptando 
œ = 0 sin limitar la generalidad, obtenemos 


Msi = LM [È 2-10] = 


-yh þe -im (33)]- 


1 
n= 


[no — 0% — e) — nte] = 0% - o). 


Ahora bien, aquí se altera incluso la propiedad de no desplazamiento 
de Só, aunque para pequeños valores de e la divergencia será pequeña. 
El establecimiento de las distribuciones de £ y S3 suele chocar con grandes 
dificultades al aparecer cierta dependencia. 

3. Criterio de relación de verosimilitud. Este criterio suele ser muy sen- 
sible a la existencia de desechos e incluso de pequeñas divergencias en las 
suposiciones acerca de la distribución de X. Supongamos, por ejemplo, que 
se verifican dos hipótesis simples Hi = {X € %o,1) y Ha = {X € U-1.1). 
Está claro que, al utilizar el criterio más potente de Neyman — Pearson, 
la aparición incluso de una sola observación x fuera del segmento [- 
1], siempre que las demás observaciones correspondan idealmente a la 
distribución U- ;,1, nos obligará (¡con una probabilidad nula de equivoca- 
ción!) a reconocer la hipótesis Mı. Esto significa que la presencia de un 
solo desecho o la aparición incluso de pequeñas divergencias de la distribu- 
ción U..,,, pueden obligarnos a tomar una decisión falsa. 

En este sentido, el criterio de Kolmogórov es, por ejemplo, mucho más 
estable (aunque también menos potente respecto a H2). En general, los cri- 
terios no paramétricos, como era de esperar, son mucho más estables que 
los criterios “individuales” dotados de propiedades de optimización en uno 
u otro problema concreto. 

En cuanto al referido problema de verificación de la normalidad (H1) 
frente a la uniformidad (#2) de la muestra X, el establecimiento de criterios 
potentes y al mismo tiempo estables respecto a los desechos, se puede reali- 
zar utilizando, como antes, la relación de verosimilitud, pero para muestras 
“truncadas” (compárese con (4)). También se puede ir por la vía de elección 
de otro criterio cualquiera. En este sentido, la existencia de una reserva 
bastante grande de criterios y estimaciones diferentes es muy útil. A esto 
a menudo se acude no sólo por razones de estabilidad, sino también por 
cuestiones de comodidad de los cálculos. 


CAPÍTULO 4 


Problemas estadísticos de dos muestras y más 


En los $$ 1 y 2 se examinan los problemas de homogeneidad de dos 
muestras. 

En el $ 3 se estudian los problemas de regresión. 

En el $ 4 se exponen los resultados del análisis de varianza. 

En el $ 5 se examinan los problemas de reconocimiento de las imágenes. 


$ 1. Verificación de las hipótesis de homogeneidad 
(completa o parcial) en el caso paramétrico 


1. Clase de problemas a examinar. En los capítulos anteriores, el objeto 
de todos los estudios ha sido la muestra X de volumen » de una distribución 
P total o parcialmente desconocida. Ahora pasamos al estudio de los 
problemas estadísticos donde figura no una, sino dos muestras y más. 

Una de las clases principales de problemas que se examinan en este 
caso son los problemas de verificación de la homogeneidad (completa o 
Parcial) de dos muestras. 

Aquí entran los tres siguientes tipos principales de problemas: 

L. Verificación de la homogeneidad “ordinaria”. Aquí el problema con- 
siste en verificar la hipótesis de que dos muestras X e Y se han extraído 
de una misma distribución desconocida. Tales problemas surgen, por 
ejemplo, al comparar dos métodos de elaboración en cualquier proceso tec- 
nológico o en la agricultura. Como base de comparación suelen servir las 
Características numéricas del producto final (de la muestra), que son de 
naturaleza aleatoria. Problemas de este mismo género surgirán si por el 
estado de salud de los enfermos verificamos el efecto de una nueva medici- 
ha, comparando el grupo experimental de pacientes con el grupo de 
control. 

Entre los problemas de homogeneidad figura el ejemplo dado en la 
introducción. 


28* 


436 CAP. 4 PROBLEMAS DE DOS MUESTRAS Y MÁS 


En este párrafo examinaremos el caso paramétrico. Supongamos que 
se da una familia de distribuciones (Po ago Y que hay dos muestras inde- 
pendientes X = (xı, ~, Xn:) € Y = (Y1, ~» Ym) de volúmenes m y M2, res- 
pectivamente, con la particularidad de que se sabe de antemano que estas 
muestras pertenecen a la familia (Po): 


XEPa, YEPa 10) 


para ciertos 0, y 02. El problema ordinario de homogencidad aquí consiste 
en verificar la hipótesis Hı = (6, = 02) frente a la alternativa adicional 
Ha = [01 * 02). Es evidente que aquí ambas hipótesis Hı y Hz son com- 
puestas. 

11. Verificación de la homogeneidad al existir un parámetro obstaculiza- 
dor. Aquí se supone que la dimensión k del parámetro 6 es mayor que 
1. Escribamos el vector 9 en forma de la colección 9 = (u, v) de dos subvec- 
tores u y v y designemos por uy las componentes de los vectores 0, en (1), 
j=1,2 

Supongamos que sabemos de antemano que en ambas muestras, “el 
subparámetro”, a pesar de ser desconocido, es común: vı = vz = v. Se veri- 
fica la hipótesis Hı = (us = 42) frente a H = (us % 42). y 

Este es precisamente un problema de homogeneidad cuando se dispone 
del parámetro obstaculizador v. El mismo se distingue de los problemas 
ordinarios de homogeneidad por el hecho de que la alternativa para la hipó- 
tesis Hı = (01 = 02) tiene la forma Hz = (u, # uz, vi = v2). 

Se puede citar el siguiente ejemplo de surgimiento de tal tipo de proble- 
mas. Supongamos que nos interesa el estado de cierto objeto que se caracte- 
riza por el vector a que no puede ser medido directamente. Podemos 
efectuar tan sólo mediciones en las que sobre a se superpone un ruido ale- 
atorio cuya naturaleza, al efectuar diversas observaciones, permanece inva- 
riable. Debemos verificar la hipótesis de invariabilidad de a en dos series 
de observaciones X e Y. 

Si, digamos, las mediciones tienen la forma x= a + i, donde 
E € $, „p determinan el papel que desempeña el ruido, y las observaciones 
yı tienen ese mismo carácter al sustituir a, por az, entonces podemos escri- 
bir X E $, ixe Y E Ba. 7,1 Hemos llegado al problema de verificación 
de la igualdad de las medias (en = az} de dos poblaciones normales 
Sangi Y Papo para el valor desconocido común o”. 

111. Verificación de la homogeneidad parcial. Aquí solamente se verifica 
la hipótesis Hı acerca de la coincidencia “parcial” de 8, y 62. Es decir, 
se comprueba la hipótesis Hı = (u = u2) (con designaciones del apartado 
anterior) frente a Hz = (us = uz). Los valores de vı y vz pueden ser propios 
para cada una de las muestras X e Y. 

Supongamos, por ejemplo, que en un laboratorio se estima el resultado 
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de la influencia que ejerce un nuevo método de cultivo sobre el rendimiento 
de cualquier cereal. Las observaciones representan el peso total de los gra- 
nos en distintas espigas. Supongamos que x; € Baod E= Lo. m para 
una partida experimental de espigas, e y: € 3,4 para la partida de 
control. Es natural admitir que la “dispersión” o? puede variar a consecuen- 
cia del cambio de cultivo. Pero para nosotros es importante saber si cambia 
o no el índice principal œ que determina el rendimiento del cereal. Llegamos 
al problema de verificación de la hipótesis Hı = {œı = 02) frente a 
Ha = (01 % 02) para poblaciones normales cuyas varianzas pueden ser di- 
ferentes. En la literatura, este problema es conocido con el nombre de 
problema de Behrens — Fisher”. 

En este párrafo reduciremos los problemas de todos los tres tipos, para 
las familias paramétricas arbitrarias, al problema examinado en el $ 3.15, 
de pertenencia de una muestra a una subfamilia paramétrica, y hallaremos 
una serie de criterios asintóticamente minimax, suponiendo la semejanza 
de las hipótesis sometidas a verificación. Serán los criterios de relación de 
verosimilitud que, para poblaciones normales, coincidirán con los criterios 
construidos al buscar una u otra optimización exacta (si tales existen; com- 
párese con [57)). 

El criterio estadístico ~ para verificar M, frente a H2, en nuestro caso 
será la función r = 1(X, Y) de dos muestras X e Y que, al igual que en 
la exposición anterior, designará la probabilidad de aceptación de H para 
una muestra unida dada (X, Y) (véase el capítulo 3). Las definiciones del 
nivel asintótico y de la optimización asintótica del criterio x aquí son las 
mismas que en el $ 3.14. 

Definición 1. Diremos que el criterio x tiene un nivel asintótico 1 — € 
(pertenece a la clase X,), si 


lím Mpa T(X, es 
ad AA D Se 


donde My,,, significa la esperanza matemática respecto a la distribución 
Po, X Po,, y O: es el conjunto de valores (91, 02) con los que se cumple 


Se han escrito muchos libros dedicados a la búsqueda de sus soluciones óptimas. Al 
estudio del problema de Behrens — Fisher, que resultó muy difícil, contribuyeron conside- 
rablemente las investigaciones de Yu. V. Línnik y sus alumnos. Dichas investigaciones re- 
quieren la introducción de nuevos conceptos y el uso de un aparato matemático muy complejo. 
Esto hace imposible la enunciación y demostración (en el marco de este manual) de los resulta- 
dos obtenidos, La situación acerca de los problemas de homogeneidad ordinaria y de homoge- 
neidad para poblaciones normales al existir ún parámetro obstaculizador, es algo mejor (en 
una serie de problemas se logra hallar los criterios invariantes no desplazados y uniformemente 
más potentes). No obstante, las construcciones indispensables para ello también resultan muy 
complicadas; este tema se examina más detalladamente cn [57). 
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la hipótesis A, (por ejemplo, el conjunto de todos los puntos (61, 62) si- 
tuados en la “bisectriz” 8, = 02 en el problema de homogeneidad or- 
dinaria). 

Definición 2. El criterio vı € X, se llama asintóticamente minimax en 
K, para verificar Hı frente a Ha, si para cualquier criterio m €K, se 
cumple 

lim inf, da, Momi% P- y ia, Mao TOS P) > 0, 
donde 0» es el conjunto de valores (9,, 02) correspondientes a las alternati- 
vas de Ha. 

2. Criterio asintóticamente minimax para verificar las hipótesis seme- 
jantes de homogeneidad ordinaria, Introduzcamos un nuevo parámetro 
© = (61, 02) que caracterice la muestra “unida” (X, Y). La función de verosi- 
militud de la muestra es igual a f(X, Y) = /(O/0.(M). 

Supongamos primeramente, para abreviar, que los volúmenes de las 
Muestras coinciden: m = m = n. Entonces, la muestra (X, Y) puede repre- 
sentarse como muestra de volumen n formada por las observaciones (x1, 
Yi), «0» (Xn, yn) de la distribución P¿= Pe, X Po, que tiene la densidad 
Jofon). Llegamos al problema examinado en el $ 3.15, de verificación, 
a base de la muestra (X, Y), de la hipótesis H, de que el parámetro 0 se 
sitúa en la “curva” 61 = 0. Teniendo en cuenta las designaciones de $ 3.15, 
en nuestro caso, la hipótesis H, tiene la forma 8 = g(a), donde 


a m 01, g(a) = (a, a). Es evidente que la matriz G = | E | jah 


n 2k, j = 1, .., k, tiene la forma Z ) donde E es la matriz unidad 


de k-ésimo orden, así que el rango de G es igual a k. 

Consideraremos localizado el parámetro ô, o sea, consideraremos que 
los valores de 9, y 02 son semejantes y, por consiguiente, que los posibles 
valores de 8 se sitúan en el entorno del punto ĝo = (So, 90) para cierto 0 
registrado. Si seguimos el $ 3.15, nos será más cómodo introducir un nuevo 
parámetro 7 = (7, 7") = (y'/Yn, y/Yn) = y/Vn, donde r' = 0; — bo, 
1” = 02 — 01, así que la aplicación $ = 9(7) es biunívoca: 9, = 7’ + ĝo, 
0, = 1" +7’ + 00. En los términos de los parámetros 7 y y, la hipótesis 
H, de homogeneidad tomará la forma Hı = [1” =0) = (y” = 0). En ca- 
lidad de alternativa examinaremos la hipótesis “aislada” 


Hé=1(y"ly7>0%),b>0, (0) 
donde 7 = 1(00) es la matriz de Fisher para la familia (Ps) en el punto ĉo. 


Teorema 1. Supongamos que en el entorno del punto 9, la familla (Po) 
satisface las condiciones (RR) (véase el $ 2.28), Entonces, el criterio de rela- 
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ción de verosimilitud 


P Sa Ofo CY) 
sup SAOS) 


>A? 


R(X, Y) = 6) 


E el criterio asintóticamente minimax de nivel 1— e para verificar 

= (01 = 02} frente a HÈ = ((01 — 02)1(0: — 61 > b*/n) para cual- 
aie b > 0, donde h, es una cuantila de orden 1 — e de la distribu- 
ción x? de k grados de libertad (para la hipótesis H, la estadística 
2 In RX, Y) tiene tal distribución límite). 

Supongamos que Êx, 6%, ° es la ex.m. del parámetro 0 = 01 = 02, res- 

pectivamente, según las muestras X, Y, (X, Y). Entonces, el criterio 

(Ox — ENEN — 097 + (67 — ÖÖS — 87 > h,/n (4) 
será asintóticamente equivalente al criterio (3). 


Demostración. La afirmación mencionada es el corolario directo del 
teorema _3,15.4. Sólo debemos aclarar qué representa la matriz de Fisher 
1(60) = 1(00, 00) para el parámetro “unido” Ø = (81, 02), y la matriz Ma 
para la familia paramétrica (Po,.0+ 6) En el punto £ = 0. Tenemos 


In aSa) = Nx, 01) + 10, 02). 


Designemos por t, / = 1, .... 2k las coordenadas del vector % En este caso, 
si por Mz se designa la esperanza matemática en la distribución Pz, los 
elementos Jy(0) de matriz 70) serán iguales a 


dx, 01) Ay, 02) als, 0) , Hyr, 0) 
wO =m; ( E 7 MM ag dy ) 


De aquí, en virtud de la independencia de x; e y1, obtenemos 


Sm 10) 0 
10) = ( o 16) ) 
Por eso, el criterio (4) no es otra cosa sino el criterio (3.15.12) en el teorema 
3.15.4. 
Los cálculos c muestran que M2 = /(00), ya que para B = 
= BlBr, ~» Br) = 0, 
alx, 00) , iyi 00 +8) _ li, 8o) 
En 3, E 


Observación 1. La afirmación del teorema 1 se ha obtenido suponiendo 
que m = m. Sin embargo, esta limitación no tiene absolutamente impor- 
tancia. Examinemos, por ejemplo, el caso cuando m > so, 7z > co, de mo- 
do que la relación m/n sea igual a un número racional 73/7 (7, y rz son 


»i 
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números enteros arbitrarios registrados, 7i; = n= 00), Volvamos a 
introducir el nuevo parámetro 8 = (61, 02) y examinemos la muestra unida 
(X, Y) como una muestra de volumen 7 con las observaciones (X1, ..., Xni 
Yis eo Yah nst, m» Xani Yn to = Y213), + de la distribución 


Po Xx..xPo xPo XX... Xx Po 
ri veces ra veces 


que depende del parámetro 8. La función de verosimilitud otra vez adquiri- 
rá la forma 


SAX, Y) = LOMA). 


Si se introduce, como antes, el nuevo parámetro 7 = (7”, 7”) = (0, — 0, 
02 — 01) y se pone 7 = y/Va = (y*/Vn, y*/Vn), entonces, el problema some- 
tido a examen consiste en verificar Hi=(y”=0)] frente a 
H$ = (y"M2y”? > b*), donde Ma es la matriz de Fisher para Pg, 0,4g 
en el punto £ = 0. Es fácil ver que en nuestro caso M2 = 721(00), así que 
el conjunto de alternativas conserva su forma (2): 


H} = (yl ">o/P). 
La matriz de Fisher /(9) tendrá la forma 


( E 1609) ) g 


Sólo queda utilizar el teorema 3.15.4. Entonces obtendremos la afirmación 
del teorema 1, en la que el criterio (4) ha de sustituirse por 


mÔ — OO NÓ — 07 + 
+ nÓy — 0*)1(0" ÊY — 0) > h,- 6) 


Con ayuda del teorema 3.15.4 también se puede señalar la potencia asin- 
tótica garantizada de los criterios (3) — (5). 

La afirmación del teorema también es válida en el caso general cuando 
M1 > 00, m > œ, m/n2 — c, donde c es un número arbitrario de (0, 1). No 
obstante, la demostración de este hecho exige consideraciones adicionales. 

Observación 2. La afirmación del teorema 1 también será válida si la 
hipótesis Hı = (01 = 02) se sustituye por la hipótesis (véanse los capítulos 
precedentes) 


Hi = (01 — 02)1(01 - 07 <a*/m), 0<a<b. 


Observación 3. La forma de criterios asintóticamente minimax en el 
teorema 1 no depende de fo. El valor de ĝo sólo forma parte de la definición 
de la hipótesis H$ a través de 7 = (00) (véase (2), aunque también sería 
posible evitar la aparición de ĉo sustituyendo Z en (2) por /((01 + 62)/2). 
Esto nos proporcionaría la hipótesis H$ (“asintóticamente equivalente” a 
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A’), para la cual se conserva por completo la afirmación del teorema 3. 
La aparición del valor 6. en (2) se debe a la utilización del método más 
simple de reducción del referido problema a los resultados del $ 3.15. 

Ejemplo 1. Supongamos que X e Y son muestras de volúmenes m y 
m de las distribuciones polinomiales X € Bs, Y € Be, 0,€R*, 0 = 
= (011, ~» Ow), i = 1, 2. Los vectores de las frecuencias y = (vi, .., vk) 
y p = (41, -m ua) de aparición de los sucesos A, ..., Ax (véase el $ 2.2) 
forman las estadísticas suficientes 


k k 
AN ps n fN pi A 


Las evm. tienen la forma ĝẹ=»v/m, þb=pwm, = 
= (v + 1)/(m + m). La matriz 1(0) está definida en (3.15.5), así que (veáse 
(3.16.9)) 


4 


T= a 
100) 2 dor © 


Así pues, en virtud del teorema 1 y de la observación 1, el criterio asintó- 
ticamente minimax de nivel asintótico 1 — e para verificar Hı = (0, = 02) 
frente a 


H= { È Ou 00 > Bm) 
Ai 


tiene la forma 
In R(X, Y) = 


E a Joson PAE > 


men” 


donde h, es una cuantila del orden de 1 — e de la distribución x? con 
k — 1 grados de libertad. De acuerdo con (4) y (5), será asintóticamente 
equivalente el criterio 


E 2 
107 (Anay MEA 
m mim 
izi 
x 


vi +p 


n 
M 
AA 
ls 
1 
3|E 
E 
El 
v 
> 
3 
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Ejemplo 1A. En el ejemplo 2.26.3 hemos descrito el mecanismo de he- 
rencia de los grupos de sangre designados por 0 (cero), A, B y AB. Dicho 
mecanismo es controlado por genes de tres tipos: A, B y 0. Las probabilida- 
des de que esos genes aparezcan en una población dada se designan por 
Pp, q,r = 1 — p — q, respectivamente. Las probabilidades pi(a), œ = (P, q) 
de que una persona tenga el i-ésimo grupo de sangre se expresan a través 
de a según las fórmulas citadas en la tabla 1 del $ 2.26. 

“Tenemos dos muestras X e Y con frecuencias »; y pi, 1= 1, ..., 4 de 
aparición del ¡-ésimo grupo sanguíneo, obtenidas a consecuencia del examen 
de m = 353 personas de la comunidad /, de m = 364 personas de la comu- 
nidad JI. La distribución de las personas según los grupos sanguíneos se 
da en la tabla 1 


Tabla 1 


Es necesario verificar la hipótesis de pertenencia de las comunidades 
examinadas a una población, o sea, la hipótesis de igualdad de las probabi- 
lidades p y q de estos grupos o, que es lo mismo, la hipótesis de igualdad 
de las probabilidades pi(a). Este es, evidentemente, el problema de homoge- 
neidad examinado en el ejemplo 1. 

Si se verifica la coincidencia de las probabilidades de los cuatro grupos 
de sangre, entonces, a la estadística (veánse los capítulos precedentes) 


le corresponderá la distribución x? con tres grados de libertad. En nuestro 
caso el valor xi constituye 11,74. El nivel realmente alcanzable (véase el 
$ 3.4) de la desviación obtenida pasa de 0,99. Esto significa que la hipótesis 
de homogeneidad ha de ser rechazada desde el punto de vista del criterio 
xi > ho,or de nivel 0,99. 

Debemos señalar que el criterio aplicado no del todo corresponde a 
la naturaleza del fenómeno examinado, ya que debemos verificar la coinci- 
dencia de las probabilidades p y q y no la de las probabilidades p; de apari- 
ción de los grupos sanguíneos. Ateniéndose exactamente al teorema 1, 
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debemos, mediante los métodos descritos en el $ 2.26, calcular las ev.m. 
dx, ay y a" del parámetro a = (p, q) con arreglo a las muestras X, Y 
y (X, Y), respectivamente, y utilizar la estadística 


Xå = Lak, X) + Llar, Y) — La, (X, YN > 
4 4 4 S 
=2 [ 2 vi In pax) + A q ln play) — A (Pi + qu) ln ax] 
i 5 E 


que tiene, con grandes valores de n, una distribución próxima a la distribu- 
ción x? con dos grados de libertad. Si realizamos todos los cálculos necesa- 
rios (véase el ejemplo 2.26.3), obtendremos xå = 11,04, lo cual proporciona, 
para dos grados de libertad, una desviación mayor de 11,74 para tres grados 
de libertad. 

En cuanto a la verificación de la propia hipótesis de pertenencia de 
X e Y a las subfamilias paramétricas Ba), donde p(a) = pi(a), .., pa), 
véase el ejemplo 3.17.1. Ambas muestras concuerdan bien con esta hi- 
pótesis. 

Ejemplo 2. Sea X € $, ¿, Y € 8, ¿, donde los puntos 0, = (ar, o 
se sitúan en el entorno del punto bo = (ao, 04). Aquí 


5 
(a ° 
Taa 


(véase el $ 2.16), y examinaremos el problema de verificación de la hipótesis 
Hi = (0, = 02} frente a 


l- a? -A o b N 
e E amm 


al 


Tenemos Ó% =(%, Sh), S= -E > u- IP, Sy = resi)ona, 
a 
Las fórmulas análogas son válidas para: la muestra Y. Seguidamente 


$ x+ PED) 
=G Ro z- (àrt 2») A satt- 


m +m 


n n 
Sr [Da o] - 


lat 


=4SÍ = (1 — a)SẸ + (1 — ai - YY, 
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oo, 


donde a = m/(m + m), Jlf AY) = (QreSk, y) Ahora bien, 
para verificar Hı frente a A3, como criterio asintóticamente minimax utili- 
zaremos el criterio 


Sky ON 


S) 


donde h, es la cuantila de la distribución x? con dos grados de libertad. 
Le proponemos al lector que halle, en calidad de ejercicio, el criterio asintó- 
ticamente equivalente que tiene la forma (5). 

3. Criterios asintóticamente minimax para el problema de homoge- 
neidad al existir un parámetro obstaculizador. En éste y en los apartados 
posteriores supondremos, para abreviar, que los volúmenes de las muestras 
X e Y coinciden: m = m. Esta limitación no tiene importancia. En el caso 
de n/m = ri/ra (ri y ra son enteros) el lector puede liberarse por sí mismo 
de esta limitación así como se hizo en la observación 1 del teorema 1. 

Así pues, supongamos que se dan dos muestras X € Po, e Y € Pa, 
0, = (u, vi), i = 1, 2, de volúmenes n, = m = n. Se verifica la hipótesis 
[u = u) frente a {us » u) suponiendo que conocemos vı = vz = v y v. 
La dimensión u se designa por /, } < k. 

Introduzcamos un nuevo parámetro ð = (u1, u2, v). Representemos la 
muestra unida (X, Y) como una muestra de volumen n con observaciones 
(Xis Y1), ~e (Xas yn) cuya densidad de distribución es igual a f(x, y) = 
= fon, 040, VO). Para esta familia paramétrica, el problema sometido 
a investigaci Sn ¿quivale al problema de verificación de la hipótesis A, que 
gonsiste en el hecho de que el valor de 9 se encuentra en la “curva” 

= g(01) = (m, m, v) frente a la alternativa adicional. La matriz 


= 21, = A E o 
o Jhi- 2 K+ 1, j=l, m K, tiene la forma ( "p, )» 


donde arriba se halla la matriz unidad de orden 1, y abajo, la matriz unidad 
de orden k, así que el rango de G es igual a k. 
Al igual que en el apartado anterior, consideraremos que el parámetro 
6 ha sido localizado cerca del punto 8 = (uo, vo). Introduzcamos el pará- 
metro 7 = (8) = (71,77, 7”) = (i — uo, uz — 1, v — vo). La aplicación 
inversa 8 = 0(r) siempre existe y sus coordenadas son 41 =7" + uo, 
u= 7” +7’ + uo, v =7" + vo. Pongamos 7 = y/VA, y = (Y', y”, Y”). 
Para el nuevo parámetro río y), la hipótesis de homogeneidad tiene 
la forma H, = (y” = 0). En calidad de alternativa examinemos la hipóte- 
is “aislada” y" h(@o)y" > b*), donde 1,(0) es la submatriz de la 
matriz inicial de información de Fisher 1(6), formada por sus primeras / 
filas y columnas. 
Teorema 2. Supongamos que en el entorno del punto 00, la familia (Po) 
satisface las condiciones (RR). Entonces, el criterio de relación de verosi- 
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militud 


asa ip fon COL, YN par 
AD AN ®© 


es el criterio asintóticamente minimax, de nivel asintótico | — e, para verifi- 
car Hı = (ur = m} frente a 


HÈ = (1 — 2) h(8o)(ui — u)” > b?/n}, 0) 


con un valor común de vı = v = v y con cualquier b > 0. Aquí h, es una 
cuantila del orden de 1 — e de la distribución x? con 1 grados de libertad. 
(Tal será la distribución límite 2 ln R(X, Y) en la hipótesis Hı). 

Designemos por 8° el valor del parámetro 8 con el que se alcanza el 
valor máximo del numerador en (8), y por 8° = (u*, v*), el valor de 0 con 
el que se alcanza el valor máximo del denominador. Representemos la 
matriz 1(9) en la forma 


O) 


TO= À ha) a0) 
Entonces, el criterio 
© = iu, u°, DIEE — (u°, u*, v) > hn, (10) 
donde 
on hO) 0 h0) 
10) = o 102) Lx(02) , u) 
ha) Haa)  ha(61) + hala) 


será asintóticamente equivalente a (8). 

Demostración. Este teorema también es el corolario directo del teorema 
3.15.4. Sólo queda aclarar la estructura de la matriz 7(9) pasa la muestra 
(X, Y) del parámetro “unido” È y de la matriz M2. Tenemos 


Le ln fis y) = Kx, (u, v)) +10, (uz, v). 


Designemos por ti, i = k + 1, las coordenadas del vector 8. Entonces 


lx, (m, », 


rA 0<i<l, 

ôl _ | 30, ge A i 

ETA BE i<i<2, 
ôl, e v) , 90, (u, v) i A 
HO tr US ISK A l; 


de aquí se obtiene (11) sin dificultad. 
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La matriz M para la familia paramétrica Pap, g, o) = Pu, 148, w) EN 
el punto 8 = 0 se calcula análogamente. La misma es igual a 71 (8o) y corres- 
ponde a la submatriz media de la matriz (ĝo). < 

En los ejemplos expuestos consideraremos que los volúmenes de las 
muestras m y m son arbitrarios, 

Ejemplo 3. Sea X € $, è» Y E Ba, 7. Es necesario verificar la hipó- 
tesis Hı = (a1 = az) cuando se desconoce o”. Para determinar los criterios 
asintóticamente minimax con ayuda del teorema 2 necesitamos hallar la 
estadística Ri(X, Y) en (8), donde en nuestro oma u = an v = 0, f= 


= (01, 02, 0°). Tenemos ln fa, AY, AY) = — Hon + m) In (210?) — 


-zr 5 -a -ir $ (i — a2). Reduciendo a cero las deri- 
E 


mi 
vadas de pa función respecto a œi, az y a”, y resolviendo las ecuaciones 
obtenidas, hallamos según las designaciones del ejemplo 2) 


h aSk + ash, a 0, (12) 


mm 
fi(X, Y) = (2xe(aSi + (1 - SYM, 
Procediendo del mismo modo con la función in /W0/(Y) = 
= In fea. (Xia, Y), obtenemos (véase el ejemplo 2) 
=E Sin), 


=( y, 


a 
LAA) = resi E, a3 
Ahora bien, el criterio asintóticamente óptimo tiene la forma 


Sr 
así + 0- así 


> bum 


o bien (veáse (7) 


Val DRA 
Vask + 0 - aS? m 
donde h, es una cuantila del orden de 1 — e de la distribución x? con un 


solo grado de libertad, así que VA, se puede sustituir por el valor de ya 


para el cual Bo, ¡(—Ayyzo Ava) = 1 — €. Es fácil notar que el primer 
miembro de la desigualdad 


Vall — a)n + m)|3 — Fi 
aSk + (1 - a)S} 


m 


>N 04 
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que define el criterio asintóticamente minimax, después de sustituir |X — y] 
por X — Y será asintóticamente normal con los parámetros (0, 1) de una 
variable aleatoria. 

Pero este criterio puede ser exacto (o sea, puede tener con exactitud 
un nivel dado de antemano). Efectivamente, en virtud de los resultados 
del $ 2.32, en el caso de la hipótesis Hi, 


l mm X 
[am EF 
mtm o Sa 


m 
(m + m)aS$ 1 dg 
= 6 =- Y E Ha, 


(Un + mX1- así _ 
A E > 


LA 
1 = 
mE > 0i - YY € Ha 1 


En vista de que las tres variables aleatorias son independientes, la relación 


- mm mm és 
A > 
_¿G-DIVA Mim D 
aSk + (1 — a)Sy 


tiene distribución de Student con m + m — 2 grados de libertad. Así pues, 
el criterio (compárese con (14)) 


G-VVaAl—Am+m-D, 
Vask + 0- aS} e 


donde r, es tal, que Tr +m-2(— Tes 74) = 1 — £ tendrá un nivel de signifi- 
cación exactamente igual a 1 — € y el mismo podrá ser utilizado para 
cualesquiera valores (y no sólo grandes) de m, nz. Este criterio, que se deno- 
mina criterio de Student, también posee ciertas propiedades de optimiza- 
ción exacta (y no sólo asintótica) (veáse [57)). 

Ejemplo 4. Sea X € $i» Y € Ža- La hipótesis (01 = 02) se verifi- 
ca cuando se desconoce «. Procediendo del mismo modo que en el ejercicio 
anterior, llegaremos al valor R, en (8), cuyo denominador equivale al del 
ejemplo anterior, y el numerador es igual a 


STm+m-2 


D fa Of. as) 
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Escribiendo las ecuaciones para el punto del valor máximo, obtenemos 


m 
A=- D-a? S+G- a, 


lat 


Lot 
a Las G a}, 


En 
Tra- a) +E G- a) = 0. 


De aquí, poniendo 


A E adi ai 

hallamos 
a= p3 + (1 p), 

d=si+(1—-pPa?, h= S} + pa, 
donde, para abreviar, hemos supuesto que A = X — F; p puede considerarse 
como la solución de la ecuación (16) o 

a a(sy + p?a?) 
Ay Pa) A SA O pra * 
Como el máximo en (15) es igual a 
Qe) MImVASE + (1 — pra?) MAS + p?A?) -m2 a7) 


comparándolo con (13) y (7), obtenemos el criterio asintóticamente 
minimax 


así + (1 — a)Sy + a(l — aya? 

A pa TT > M ga 
o bien 

así + (1 — así 

SHUI — a) 

1 + — al - aja? 
aSk + (— a)sí 

AA EE EDT + ST j 
de la distribución x? con un solo grado de libertad. Aquí 


A? = (04/m + oi), EE doi, S/F 3 1, Soy 1, 0/08 1, 


> temen) A!) 19) 


h: es una cuantila 
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m 
Mm +m 
In A 3 O para cada una de las hipótesis semejantes que se examinan. Por 


p—a (para abreviar podemos considerar que a = es fijo), 


consiguiente, el segundo miembro en (19) tiene la forma 


1 AER e 
n+m P 
El primer miembro de (19) es la relación entre la media aritmética y la 
media geométrica de los valores de SẸ y SẸ}. Si se designa Si/S% = Z?, 
la desigualdad inversa a (19) puede ser escrita en la forma 


az? + (1- a) 
=T- 


Z mon eo 


Aquí, en el primer miembro se halla la función de Z convexa hacia abajo 
(para evidenciar la exposición podemos considerar a < 1/2) que tiene un 
cero múltiplo en el punto Z = 1. Como el segundo miembro de esta des- 
igualdad es pequeño, conviene hallar la solución en forma de Z? = 1 +7 
cuando y es pequeño. Utilizando el desarrollo en serie respecto a las poten- 
cias de ț, y eliminando los términos del tercero y mayores órdenes de pe- 
queñez, obtenemos, para las fronteras tı, f2 del intervalo donde es válida 
(20), los valores 


E Alh + 57) E Ahe + 57) 
O CEI SOC 


bgo 370. 


Esto significa que, si volvemos a las variables iniciales, el dominio 


H a(i — al + m) |S$/S% = 1| > Vie = Na e 


@: ha sido definido en el ejemplo 3) definirá el criterio asintóticamente 
equivalente a (18) y, por lo tanto, asintóticamente minimax. 

Aquí al igual que en el ejemplo 3, podemos hacer que el criterio obtenido 
sea exacto, ya que conocemos la distribución precisa de la estadística 
Sk/Sy. En efecto, 


mSh/0% € Hm-1, m5i/0Í 
y en el caso de la hipótésis Hı = (01 = 02), 


mS 
LS AN 
sy € ht 


298030 
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donde Fp -1,n,-1 €s la distribución de Fisher introducida en el $ 2.2 y ta- 
bulada en los manuales de estadística matemática. Esto significa que es 
posible calcular el nivel exacto de significación del criterio (21) y aplicarlo 
para cualesquiera n, y m (las propiedades exactas de optimización de este 
criterio se exponen en [57)). Si son grandes los valores de m y nz, el primer 
miembro en (21) (sin signo de valor absoluto) es asintóticamente normal 
con parámetros (0, 1). 

4. Criterio asintóticamente minimax para el problema de homogeneidad 
parcial. Supongamos que X € Po,, Y E Po, 0, = (14, vi), i = 1, 2. Se veri- 
fica la hipótesis {uı = uz) frente a [ui > u2} cuando los valores de vı y 
vz en las muestras X e Y pueden ser cualesquiera. La dimensión w, al igual 
que antes, se designa por /,1>%, _ 

Introduzcamos el nuevo parámetro 9 = (01, 02) = (11, vı, t2, v2) de di- 
mensión 2k. Al igual que antes, representemos la muestra (X, Y) (cuando 
n =m = n) como muestra con observaciones (x1, yı), (Xn, Yn) de 


densidad 
Sol, y) = Sí, o, DO) 

Para esta familia, el problema de homogeneidad parcial equivale al 
problema de verificación de la hipótesis H1, el cual consiste en que Ó perma- 
nece en la “curva” 0 = g(a) = (41, vi, Uy, vz), donde a = (u, vi, v2) es 
el “subparámetro” de dimensión 2k — /. Le proponemos al lector que escri- 
ba, siguiendo los razonamientos de los dos apartados anteriores, la matriz 


G= pas) i= 1, a 2K, j = 1, .., 2k — L Su rango es igual a 2k — l. 
Al 


igual que en los apartados 2 y 3, consideraremos “localizado” el 
problema cerca del punto % = (uo, vo). A la par con 9 introduzcamos el 
parámetro 7 = 7(8) = (7', 7%, 7”, 7Y) = (u — lo, vi — vo, i — úi, 
va — vo). La transformación inversa 4 = ĝe tiene las coordenadas 


ui = T’ + uo, vi =7” + vo, W2 = 7” + o, 
vza r” + vo. 
Si se pone 7 = y/V7, y = (y’, y”, y”, y"), la hipótesis Æ tendrá la forma 
E = (y” = 0}. En calidad de alternativa consideraremos la hipótesis 
“aislada” H$ = (y” L(00)y"" > b?), donde A(0) tiene el mismo sentido 
que en el teorema 2. 


Teorema 3. Supongamos que en el entorno del punto bo, la familia (Po) 
satisface las condiciones (RR). Entonces, el criterio de la relación de verosi- 
militud 


PAN 


= te/2 
O Tn Ti TRA P3 


Y L VERIFICACIÓN DE HIPÓTESIS DE HOMOOENEIDAD. asi 


es el criterio asintóticamente minimax de nivel asintótico 1 — £ para verifi- 
car Hı frente a la hipótesis H3 definida en (9), para los valores arbitrarios 
de vı y v. El valor de h, aquí es el mismo que en el teorema 2. 


La demostración de este teorema repite los razonamientos de los aparta- 
dos precedentes y asimismo se basa por completo en el teorema 3.15.4. Le 
dejamos al lector que él mismo determine la matriz de información de 
Fisher 1(0) para el parámetro 6, y la matriz Ma para la familia de densidad 
Jao, 0. 8, 0) = fiu. wo, u+8, vs) En el punto 8 = 0. 

Con ayuda de la matriz F(x, Óy)) y los vectores (Óx, 0%) - 
— (u*, vi, u*, v3), donde (Êx, 0%) y (u°, vi, v3) son los vectores en los 
que se alcanzan los valores máximos del numerador y el denominador en 
(22), es posible, como antes, mediante el teorema 3.15.4 (véase (3.15.12), 
construir el criterio asintóticamente equivalente que utiliza la forma 
cuadrática de las estimaciones introducidas. < 

Ejemplo 5. Comparación de las varianzas de las poblaciones normales. 
Sea X € Pa, à» Y E Pa, d» H = [o = 02). Aquí, los cálculos son 
mucho más fáciles que en el ejemplo 4, ya que conocemos el valor del 
numerador en (22) (al igual que el vector (x, 0%) = (X, Sk, Y, SY), y el 
valor del denominador ha sido hallado en el ejemplo 3 (véase (12)). La 
desigualdad (22) aquí tendrá la forma 


ask + ( 
Ss 


Comparando esto con (19) y con los planteamientos posteriores, llegare- 
mos a los mismos criterios y a las mismas deducciones que en el ejemplo 4, 

Ejemplo 6. Problema de Behrens — Fisher acerca de la comparación 
de las medias de dos poblaciones normales. Sea X € Ba, à, Y € Bas, oì 
Hi = {œ = az) y supongamos que los valores o, y oz son arbitrarios. Para 
este ejemplo, el numerador en (22) es el mismo que en el párrafo anterior, 
y el denominador fue hallado en el ejemplo 4 (véase (17); allí éste era el 
numerador para (8)). 

Por consiguiente, el criterio asintóticamente minimax tiene la forma 


(Ey (AN a o 


aquí A = X — y es representable en la forma 


A = (0 — a) + TIE TI EE dor. 


S/z 1 S471, 


DST, ghinn), 


2 
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así que a70 para la hipótesis H,. Esta relación, evidentemente, 


también conserva su validez para cada una de las alternativas semejantes. 
Para hallar un criterio más simple en cuanto a su forma y que equivalga 
asintóticamente a (23), en ambos miembros de la desigualdad (23) separare- 
mos sus partes principales. Obtendremos 


al -pA Mapa, y he ( 1 ) 
Si * sy eds pri CET 


donde qn? e = const. Teniendo en cuenta que 
? as 


ES os, 
o rs a 


ei% e” = const, obtenemos 


a(l — a)? SA?(m + m) + a(l ~ a)S4A? (m + m) 
aS% + (l — a)S$Y 


+ A*(n + mjor > he + o) 


donde qq” = const, A*(m + n2) 3 0. Equivalentemente esto se 
puede escribir de la forma siguiente: 
A?(m + m) 


Sha + SHA 0) >het ón, nyO. 
De aquí se deduce que el criterio 
CEI PE (24) 
VSi/a + S/U - a) 


es asintóticamente equivalente a (23) y, por lo tanto, asintóticamente mini- 
max para el problema de Behrens — Fisher. Aquí »y/2 tiene el mismo sen- 
tido que en el ejemplo 4. A distinción de los ejemplos 2—4, aquí la 
distribución antelímite de la estadística en el primer miembro (24) depende, 
para la hipótesis Hı, de los parámetros oł y 03. 

5. Algunos otros problemas. Aquí señalaremos dos clases más de 
problemas cuya solución asintótica puede ser hallada con ayuda del teore- 
ma 3.15.4. 

1) A la primera clase de problemas pertenecen aquéllos que generalizan 
los problemas de los apartados 2—4 para el caso cuando se verifican las 
hipótesis de tipo (0, = f(02)] (por ejemplo, (0, = a + b02)) en condi- 
ciones del apartado 2, y de tipo {u =.fíu)] en condiciones de los aparta- 
dos 3 y 4. Es fácil notar que los planteamientos de los apartados 2—4 
se extienden a este caso más general. 


+ 
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2) A la segunda clase de problemas pertenecen aquéllos que constan 
de tres muestras y más. Examinemos, por ejemplo, el problema de homoge- 
neidad para tres muestras. Supongamos que X € Ps, Y € Po, ZE Po,. 
Se verifica la hipótesis Hi = (01 = 02 = 03) frente a la alternativa adi- 
cional. Supongamos, para abreviar, que los volúmenes m, m2 y 7 de las 
muestras son iguales a m = m2 = m = n. Examinemos la muestra unida 
(X, Y, Z) como una muestra de volumen » con observaciones (X1, y1, Z1), «.- 
n (Km Ym Zn) de densidad falx, y, 2) =Ja(0/0%a(2), donde 
Ë = (01, 62, 03). Entonces, la hipótesis A, será equivalente al hecho de que 
8 permanece en la “curva” J = g(a), a = 01, gla) = (a, a, a). Vemos que 
el problema de nuevo se reduce al problema examinado en el teorema 3.15.4, 


$ 2. Problema de homogeneidad en el caso general 


1. Planteamiento del problema. En este párrafo examinaremos dos mues- 
tras X e Y de volúmenes n y m, respectivamente, sin suponer que las mis- 
mas pertenecen a cualquier familia paramétrica. 

El problema de homogeneidad de las muestras X e Y, en el caso general 
consiste en lo siguiente. Designemos por P, y Pz las distribuciones de las 
muestras X e Y: X € P,, Y E P2. Se verifica la hipótesis Mi = (P, = P2) 
frente a Ha = (Py 4 P2}. Evidentemente, ambas hipótesis son compuestas. 
Las distribuciones P, y Pz pueden elegirse de una familia dada 2 o ser 
arbitrarias. El principio general de construcción del criterio estadístico para 
verificar H, frente a Ha es el mismo que en el capítulo 3. Al igual que 
en el $ 1, la diferencia sólo consiste en que aquí este principio se basa en 
la muestra unida (X, Y), así que x = (X, Y) es la probabilidad de aceptar 
Hh para una muestra dada (X, Y). En el caso no randomizado (r = 0 ó 
1), el criterio ~ es definido por una región crítica Q C %™+™ tal, que para 
(X, Y) EN se acepta Hz. El número 


1-e= inf Pix P(X, Dé 


se llama nivel de significación, y el valor 
BAP1, P2) = Pi X PAX, Y)€0), Pie? PER 


se denomina potencia del criterio z en el “punto” (P,, P2). 

El criterio x se denomina criterio conciliable si Bh(P1, P2) > 1 cuando 
m> 00, nm => oœ y para todas Pı % P2, P,€% P162 

Ya sabemos que con el crecimiento de 7 y nz, las distribuciones empíri- 
cas Px, Py, correspondientes a las muestras X e Y, se aproximan indefinida- 
mente a P, y P2, respectivamente. Por eso, la base natural para construir 
los criterios de homogeneidad es el uso de distintos tipos de “distancias” 
d(Px., Py) entre Pi y Py, donde d satisface las mismas condiciones genera- 
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les que hemos descrito en el $ 3.12, En este caso revisten interés especial 
los criterios no paramétricos y asintóticamente no paramétricos que se defi- 
nen del modo siguiente. 

Sea d(P, Q) cierta distancia (no obligatoriamente métrica) en el espacio 
de distribuciones. Si la probabilidad 


P; x Pr(d(Px, P}) > c) =e 10) 


no depende de la muestra P,, entonces el criterio m, definido por las 
igualdades 


_ $0, si (Px, Py) <c, 

TOG Y = 11, en el caso contrario, a 

se llama criterio no paraméftrico. Es evidente que el criterio no paramétrico 
construido tendrá un igual a nivel 1 — e. 

Así mismo se determinan los criterios no paramétricos cuando (1) se 

conserva asintóticamente al introducir la operación, _lím__en el primer 


miembro. En este caso el criterio (2) tendrá un nivel asintótico igual 1 — e. 
Cuando falta la no parametricidad (exacta o asintótica) es muy difícil cons- 
truir los criterios de verificación de la homogeneidad de un nivel dado. 

Examinemos algunos criterios principales de verificación de la homoge- 
neidad. 

2, Criterio de Kolmogórov — Smirnov, Supongamos que P, y Pz perte- 
necen a la clase 42 de todas las distribuciones continuas en una recta, y 
que Fx y Fý son funciones empíricas de distribución, correspondientes a 
Px y Py. En calidad de distancia d(Px, Py), el criterio de Kolmogórov — 
Smirnov considera la estadística 


Dm. m = sup |FX() — FO). 


El criterio Dm, m > €, construido con ayuda de la estadistica Dm, m nO 
es paramétrico, En efecto, supongamos que es cierta la hipótesis H, y que 
F(t) es la función general de distribución de X e Y. La estadística Dm, m 
se puede escribir de la forma siguiente: 


Dum = Sup |¡GH(F(0) — CHECO), 6) 


donde Gł(u) = FF” Mu) es la función empírica de distribución que 
corresponde a la distribución uniforme en [0, 1] (veánse los $$ 1.6 y 3.12). 
Pero en virtud de (3), Dm, m = sup [Ch(u) — GH(u)], así que la distribu- 


ción Dm, m no depende de F de ningún modo. 
Se puede hallar la distribución exacta de la estadística Dm, m. Por 
ejemplo, cuando m = m = m, 


Ink) 
P(nDn,» > k) = (C3) 2 (ytc *, (0) 
É 
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k = 1,2, ..., n. Este hecho fue establecido por Gnedendo y Koroliuk redu- 
ciendo esta tarea al simple problema de vagancias aleatorias (véase [32)). 

En el $ 1.6 hemos visto que la distribución 1 G%(u) coincide con la 
distribución del proceso poissoniano f+(4) a condición de que 71(1) = m. 
Como Gx(u) y G}() son independientes, la distribución Gł(u) - GH), 
u €[0, 1] coincide con la distribución del proceso poissoniano compuesto 
tu), en el que, con intensidad m, se producen saltos de magnitud 1/7, 
y con intensidad 7z, saltos de magnitud 1/n2; la distribución ha de tomarse 
a condición de que ocurrieron mı + m2 saltos y que ¿(1) = 0. Por eso 


PlDm, m < x) = P(sup|t (0! < x/3(0) = 0; ocurrieron m + m saltos). 


A base de este hecho, en el Suplemento 11, además del teorema 1.6.2 
de convergencia del proceso wa(u) = Vm (G}(u) — u) hacia el puente brow- 
niano w°(u), también se demuestra la afirmación de que hacia el referido 
puente también converge el proceso 


wn, m(u) = TS (Gh) — Gu). 


Mejor dicho, para cualquier funcional f medible y continua en una 
métrica uniforme, la distribución f(Wm, m) converge hacia la distribución 
Kw). De aquí se deduce inmediatamente la siguiente afirmación denomi- 
nada teorema de Smirnov. 


Teorema 1. 


pm e(, ELE qe x) = P( sup beto! < x) = KO, 


donde K(x) es la función de Kolmogórov (véanse los $$ 1.8 y 3.12). 


Como la función K(x) está tabulada, el teorema 1 ofrece un medio có- 
modo para el cálculo aproximado del nivel de significación del criterio de 
Kolmogórov — Smirnov. 


Le dejamos al lector que el mismo se cerciore de que el criterio de Kol- 
mogóroy — Smirnov es conciliable. 
3. Criterio de signos. Sea mı = m = n. Entonces, de las observaciones 
de las muestras X e Y se pueden componer n diferencias: 
Xi = Yis 0 Xa — Ya. 6 


Si es cierta la hipótesis Hi y Pı X Pi(%1 — yı = 0) = O para todas las P; €P 
(esto, evidentemente, siempre es así cuando Pes un conjunto de distribu- 
ciones continuas), entonces 


Py x Pi(xı — yı > 0) = P; x Pi(xı — yı < 0) = 1/2. 
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La estadística y del criterio de signos es el número de diferencias positi- 
vas en (5)”. El propio criterio se puede construir adoptando en calidad 
de conjunto crítico, 
n 
» 3] > e}. 


Como la distribución de v no depende de P,, 
P; x Pi(» = k) = Cf=", 


por lo tanto, este criterio no es paramétrico. 
El número c, según el nivel dado 1 — e del criterio, se elige de la relación 


n= fa Y) 


k:|2k = nj <20P "> 1=e (6) 


Como aquí el primer miembro crece de un modo discreto con el aumento 
de c, en calidad de solución conviene tomar el valor minimo de c, con 
el que el primer miembro en (6) supera el valor de 1 — e. 

Vemos que aquí se utiliza el criterio para verificar la hipótesis de que 
la probabilidad de éxito en el esquema de Bernoulli es igual a 1/2, Desde 
el punto de vista del problema inicial, se verifica no la hipótesis de homoge- 
neidad, sino una hipótesis más amplia acerca de que 


Pi X Pa — y < 0) = | FAR) = 1/2, (Mm 


donde F; corresponde a P,, i = 1, 2. La relación (7) significa que la mediana 
de distribución xı — yı es igual a 0. 
El criterio de los signos del nivel asintótico 1 — e tendrá la forma si- 


guiente: 
2 3 
TX, Y) =1, si > A, (8) 


vn 
Poalen My) S 1 ES 


Este criterio no es conciliable, ya que para P, # Pz que satisfacen (7), 
Bn(P1, P2) + €< 1 cuando 7 — 00, nm 00, 

4. Criterio de Wilkoxon. Este criterio se aplica ampliamente al verificar 
las hipótesis de homogeneidad. 

Juntemos las muestras X e Y en una sola muestra (X, Y) y construya- 
mos de ella una serie variacional, o sea, situemos todas las observaciones 


% Si en Jas muestras X e Y, debido al valor aproximado de los datos, resulta que algunas 
diferencias xı — yı = O, entonces, éstas deben ser simplemente omitidas, tomando en calidad 
de n el número de diferencias distintas del cero. 
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en orden de crecimiento. Obtendremos una sucesión de tipo 


yO, yP, 19, yO, P, on (9) 


donde el índice superior designa el número de observación en la serie va- 
riacional general, mientras que la letra indica la pertenencia a la muestra. 
Supongamos que /;, 72, ..., fn, designan los números de elementos de la 
muestra X en la serie variacional (9). Para la sucesión escrita en (9), n = 3, 
n = 5. Llámase estadística de Wilkoxon la función 


U = U(X, Y) = Èa- 
=i 


donde r, ~ i es el número de elementos de la muestra Y que son menores 
de xú). 

En vista de que el orden de observaciones en (9) es invariante respecto 
a las transformaciones monótonas de las variables (el orden de Fx(1), FY(1) 
será el mismo que para FW(F7 (1), FHF- (0), donde F es la función 
de distribución), el criterio construido según la estadística U no será para- 
métrico. 


Teorema 2. Supongamos que X € P,, Y € Pz y F¡ € Fson las fun- 
ciones de distribución correspondientes a P;, i = 1, 2; Fes la clase de todas 
las funciones de distribución continuas. Supongamos también, que 
a=m/(m + n3) > æ cuando m > œ, m 00, Entonces 


U - nmmMFAx1) 


Do o, (10) 


donde o? = (1 — a)DFAx1) + aDF;(yı). 
Si F, = Fà = F, entonces F(x) € uo,1, Fi(y1) € Uo, 14, por consiguien- 
te, MFa(x1) = 1/2, DF(x1) = DF1(y1) = 1/12. 


Por lo tanto, el criterio de Wilkoxon de nivel asintótico 1 — £ tendrá 
la forma siguiente: 


mm MaVnim(m + m) 
U- >o ARAA A, aL 
p] 2 En 
Bo, 102 0 = 1 e 
De (10) se deduce que este criterio tiene por objeto principal la verificación 

de la hipótesis (compárese con (7) 


| EAOAFI(1) = 1/2 o bien | (F(t) — F(NAF(1) = 0. (12) 


458 CAP. 4 PROBLEMAS DE DOS MUESTRAS Y MÁS 


Si admitimos, sin limitar la generalidad, que Fx(1) = t, £€ (0, 1), y si 
suponemos que F2(0) = 0, Fx(1) = 1, entonces, en virtud de la igualdad 


1 
Í U — Fx(0))dt = Myı, 


la hipótesis que se verifica adoptará la forma yı = 1/2. 

Esto significa que el criterio de Wilkoxon, al igual que el criterio de 
signos, es principalmente sensible a los desplazamientos de las distribu- 
ciones una respecto a otra. Para tales alternativas desplazadas, su potencia 
puede ser bastante grande (véase el ejemplo 1). Pero si Fz # Fi y se cumple 
(12), entonces, según el criterio de Wilkoxon, la hipótesis {Fz = Fi) será 

e ý ka Na 
aceptada con una probabilidad próxima a 20. Nie * Nie ) . Esto 
significa que el criterio de Wilkoxon será inconciliable. 

Demostración del teorema 2. La estadística U puede ser escrita de Ja forma siguiente: 


U= $, mFix) = mm | FUDAFAO. 


Designemos 
wali) = VERO — FiO), welt) = VAMO = Fal). 
Entonces es evidente que 
U = mm | BAF) + Vmi + m) x 


x [as DAFO + V= a| sueno] + Vi] »r(Odox(O. 3) 


Como uqui | Fa)1)dwx(t) = È we(dFXO y, por consiguiente, las integrales segunda y tercera 
en (13) tienén la misma formå y son independientes, para demostrar el teorema es suficiente 
convencerse de que 


JeriddEO E %o, + oè = DF (14) 
y que 
(Hdi 0. 15) 
E [orto z as) 
En virtud del teorema 1.6.2, 
f wrenaritn e | wrar, 16) 


donde w*(u) es el puente borwniano. Para hallar la distribución de la última integral, señalare- 
mos que las trayectorias del proceso wieneriano w(u) de probabilidad 1 son continuas (14), 
wè°(u) = w(u) ~ uw(1), y que, por lo tanto, la integral (16) es, por definición, el resultado 
de la convergencia casi segura de las sumas cuando N — co, 


Y mar mor, an 
a 
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donde m = | FXO)AFICO, (4JILo forman la partición del eje real, Aig = g() — 8(-1). 
f 


x 
MEX) = 2) Am) wae 2) Aw). 
a 2 
En virtud de la transformación de Abel, 
” fa a 
¿(3 a)a- È (È n)a 
AA Na 


Por eso (17) es igual a 


A 
Y 0 FA 


= mAP). (18) 


Aquí 1 = m = $ Fi(t)dFa(f) = m y A1w(F,) son variables aleatorias normalmente distri- 


buidas e independientes con parámetros (0, AyF5). Por eso la distribución (17), (18) será normal 
con media nula y con varianza 


x 
È (m - Filt- PAR > | (m — FUPAFAD = DFi) 
Aa 


La relación (14) queda demostrada. 
Para demostrar (15)”, lo más fácil es estimar la varianza de la integral en (15). Volviendo 
a aproximar la integral con ayuda de la suma final, es posible convencerse que la varianza 


Dx.y =M (i mundo)" 


está limitada cuando m — «o, nz — «o. De aquí y de la desigualdad de Chébishev resulta (15). 
Debido a los cálculos voluminosos y rutinarios, omitiremos la demostración del carácter limita- 
do de Dx.y. < 

Datos más exactos acerca de los criterios de signos y de Wilkoxon se exponen en (41). 


Ejemplo 1. Hemos señalado que los criterios de signos y de Wilkoxon 
son los más sensibles a los desplazamientos. Por eso es interesante compa- 
rar su potencia con la del criterio óptimo en el problema donde la homoge- 
neidad se verifica para la familia Zde distribuciones que sólo se distinguen 
por sus desplazamientos. Pues, supongamos que 


P= (ba), Pi= 


En este caso, conforme al teorema 1.1, para verificar la hipótesis 

 Hi=(P,=Pa) = (01 = az) frente a HÈ = (lar — oaj > d/Vn existe el 

criterio asintóticamente minimax xo de nivel 1 — e, que tiene la forma 
R- Fi >AV2/n, #0,- Mea) = 1 e 

(el hecho de que en nuestro ejemplo esta desigualdad equivale a (1.3 y 1.4), 

el lector puede comprobarlo personalmente). Tomemos este criterio por 


nbo Pasa, m=man 


| 
| 


® La integral en (15) converge respecto a la distribución hacia [w®(F;(0)dw®(F; (1). 
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patrón para la comparación con otros criterios y examinemos la alternativa 
(Pi, P2), donde œz = as + c/Vn (examinamos las alternativas semejantes 
para no tratar el problema de grandes desviaciones). Es evidente que en 
este caso (X — Y) € B-ex, xn. Por lo tanto, 


Br(Pr, P2) = P; X Pa([X — F| > Mva V Zn) = 
=1- Pide, de) = 
=1- Bo1(—den + 0/12, den + 0/12) = Bolo). (19) 


Examinemos ahora el criterio de signos (8), designándolo por mı. Ha- 
ciendo uso del desarrollo en serie de las potencias de c/Vn, hallamos 
(Paol x) = Bajol(—00, x))) 


Pi x Paa -1< 0) = toa (E Hz o(1). 


Por eso en el punto (Pı, P2) 


2 n, cvn 
2 (3 2% E dor. 


Por consiguiente, para el criterio de signos rı de nivel asintótico 1 — e, 


Bri(Pr, Pa) = Pi x r(2 »-4|> daa) > 


181 (20 + 4 „at -E)). 


Volvamos, por último, al criterio 12 de Wilkoxon (véase (11)) que en 
nuestro caso tiene la forma 


2 an 
ju-5 > Aan? 


Evidentemente, la estadistica U es invariante respecto a la transformación 
de desplazamiento de los elementos de las muestras X e Y. Por eso se puede 
considerar que Py = $0,1, Pz = evz y, por lo tanto, 


MFa(x1) = faoa > OGE d% ()= 
= EN PE PE 1 
bal) 2 a +o) 


Como DA(x)>DF;(xı) = 1/12, DF1(y1) >DF¡(u) = 1/12, según el teore- 
ma 2, 
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BalPr, ea =r or (Ju- > gi) g 


=1-Pix P(-xa +e V< 
2 pa 
li me 3 
< vën (v - A A) 


asha + e Lo n+e ED 


Ahora debemos señalar que So(c) (véase (19)) es una función monótona 
creciente de c y que, con grandes valores de 7, 


ame, Pd = Bo(N/Ž e), BaP, Pa = (3 0). 


Ahora bien, para cada c > 0, el más potente entre los xo, 71 y 72 resulta, 
como era de esperar, el criterio ro. Le siguen el criterio de Wilkoxon y 
el de signos; con la particularidad de que el criterio de Wilkoxon cede muy 
poco al criterio ro, ya que V3/1 = 0,977. 

Si para ese mismo desplazamiento œz — œ; = c/Vn examinamos las 
muestras X’ e Y” de nivel n’ > n, entonces, para obtener (con ayuda de 
los cálculos efectuados) la potencia de los criterios TX”, Y”) en el punto 
(Pi, P2), debemos examinar el problema anterior para un nuevo valor de 
c, igual a c = cVn”/vn (entonces az — as puede escribirse en forma de 
e*//n”). Por consiguiente, las potencias de m¡(X”, Y”) y de r(X”, Y”) 
en ese mismo punto (Pı, P2) serán aproximadamente iguales a 


20) (VE 9. mc) = (E 0. 


3n’ 


Igualando 2 = 1, 
an 


1, obtenemos los valores de n’ = 3 n, 
Ti 


ra 
n n (estos valores no dependen de c) para el número de observaciones 
que n&cesitamos realizar a fin de obtener con ayuda de los criterios m y 
m2, respectivamente, la misma potencia que para el criterio xo con n obser- 
vaciones. Por ejemplo, para n = 100 observaciones con criterio o necesita- 
remos, para obtener esos mismos resultados, n’ = 105 observaciones con 
criterio 2 y n’ = 157 observaciones con criterio 71. 

Obteridriamos absolutamente otros resultados si hubiéramos verificado 
la homogeneidad para la familia P= (Po,.>). En este caso los criterios 
de signos y de Wilkoxon resultarían inconciliables. Más aún, el criterio de 
signos de nivel 1 — e sería, en realidad, equivalente al criterio w = e que 
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no depende de las muestras, ya que M(X1 — yı) = 0 y Pı X P2(x1 — yı > 
> 0) = 1/2 para cualquier par de distribuciones Pı y Pz de % Para este 
problema se podrían examinar otros criterios no paramétricos que utilizan 


las estadísticas z, por ejemplo, el criterio Di (7+1 — 7i}, Fo = 0, far = 
E) 


= m que se asemeja por sus propiedades al criterio de Morán ($ 3.12). 
5. Criterio x? como criterio asintóticamente óptimo para verificar la 
homogeneidad según los datos agrupados. En este apartado supondremos 
Que los datos en ambas muestras X e Y de volúmenes n y m, respectiva- 
mente, están agrupados (véase el $ 3.16). En este caso en vez de las muestras 
X e Y es posible utilizar los vectores » = (1, ..., »r) Y p = Gu, +... n 
Hr) de las frecuencias de observaciones de las muestras X e Y, respectiva- 
mente, que cayeron en los intervalos A; A, que definen la agrupación. 
Designemos por 0, = (011, . . „ 81), i = 1, 2, los vectores de las probabilida- 
des de que las observaciones de la primera y la segunda muestras caigan 
en los intervalos 41, . . ., Ay, de modo que 0, = P(x; € As), 01 = P(y € Aj). 
Las muestras aproximadas X e Y entonces pueden considerarse como mues- 
tras de las familias paramétricas Bo, y Bə,, respectivamente. Ahora bien, 
el problema llega a ser paramétrico y podemos utilizar los resultados cita- 
dos en el ejemplo 1 del párrafo precedente. De este ejemplo se deduce que 
si verificamos la hipótesis de homogeneidad H, = (01 = 07) en el caso en 
que el parámetro 0 está localizado, o sea, los valores de 01 y 0, se sitúan 
en el entorno del punto 8o = (601, . . ., Oor), entonces el criterio asintótica- 
mente minimax de nivel asintótico 1 — & para verificar Hı frente a 


Bha È Ou Na 5 e ) 


ter 


tiene la forma 


Y (2-4) e >, 
en m m n+p 


donde h: es una cuantila del orden de 1 — e de la distribución x? con 
r — 1 grados de libertad. Este es precisamente el criterio x? para verificar 
la homogeneidad según los datos agrupados. 

En calidad de criterio asintóticamente equivalente puede ser considera- 
do el criterio 


2i li Pi pa he 
È rm Zi + Y m n Do + adin ZER te, 


rn] f=1 
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$ 3. Problemas de regresión 


1. Planteamienio del problema. En las aplicaciones a menudo surgen pro- 
blemas referentes a las observaciones cuya distribución varía en distintos 
experimentos al cambiar algunos parámetros que caracterizan estos últi- 
mos. El conjunto de valores de los parámetros mencionados en el i-ésimo 
experimento, į = 1, ..., n lo designaremos por 


Xi = (M1) + + Xir) 


(así que r es la dimensión de los vectores x;). Los valores de x;, x son determi- 
nados por el experimentador o por la naturaleza del fenómeno que se estu- 
dia, Designemos el vector (X1,x, . . ., Xn,x) por la letra Xx, y la matriz 
Es) = QT, -... x2, por la letra X. Ahora bien, aquí, a distinción 
de lo expuesto anteriormente, X es una matriz del orden de r xX n y puede 
ser un conjunto no aleatorio arbitrario de números cuya naturaleza no nos 
interesará. El vector de observaciones se designa por Y = (yi, ..., Yn). 

Los problemas de regresión están relacionados con la suposición de que 
las observaciones y, en función del conjunto de parámetros X; = (X; 1, . + ., 
X1,r), tienen la forma 


Y= 0x4 t Xr+ Es il)... n 10) 


donde a = (%1, ..., œ) son constantes desconocidas para nosotros, y 
Es € $o, son constantes independientes. 

La constante ay desempeña a menudo un papel especial, ya que en una 
serie de casos ésta separa en la representación (1) el sumando constante, 
lo cual corresponde a que en la matriz X se supone de antemano X; = (1, 
+ +» 1) (x71 = 1). No haremos uso de esta suposición. Las variables aleato- 
rias €, se deben a los ruidos y fluctuaciones o a los errores de medición. 

En forma matricial las relaciones (1) pueden escribirse del modo si- 
guiente 


Y=0oX+¿E (2) 


La regresión que tiene la forma (1) y (2) se llama lineal (tanto respecto 
a a como respecto a X). En calidad de problemas de regresión pueden con- 
siderarse tanto el problema de estimación de los parámetros desconocidos 
a y a, si se sabe que es válida (1), (2), como el problema de verificación 
de la propia hipótesis de que la representación (1), (2) tiene lugar. En ambos 
casos, como datos iniciales sirve la «muestra» (X, Y). El término «muestra» 
se utiliza aquí en un sentido más amplio que antes, designando con él el 
conjunto de resultados de observaciones que no tienen obligatoriamente 
la misma naturaleza. Además, recordemos que la primera de las dos «mues- 
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tras» X e Y puede ser no aleatoria. La matriz X se llama, a veces, regresor 
y el vector Y, respuesta. 

El modelo de regresión (1), (2) es muy general si se tiene en cuenta que 
yı depende del conjunto de parámetros. Suponiendo, por ejemplo, 
Xx = Yx(2:0, donde Yı, ..., Y, es un conjunto dado de funciones, y Z 
son los valores del parámetro unidimensional, obtenemos el modelo 


y= aiz) +... + argk) + Es i=l, n.n n (83) 


de la regresión respecto a las funciones arbitrarias yı, . . ., Yr (y, como 
antes, lineal respecto a a). Si yı(z) = 1, Ya(z) = z y 7 = 2, obtenemos el 
modelo de una regresión lineal elemental (unidimensional) (fig. 6). 


A distinción del modelo elemental, el modelo general (1), (2) se denomi- 
na, a veces, regresión múltiple. En general, como vemos, los problemas de 
regresión están relacionados con el estudio (existencia) de la dependencia 
funcional y = p(x) para una clase dada de funciones y en los casos en que 
las observaciones de la variable y, para x dada, van acompañadas de «rui- 
dos» en forma de desviaciones aleatorias. 

Las filas Xi, . .., Xp de la matriz X en (2) suelen elegirse de modo 
que sean linealmente independientes (de otro modo no podremos estimar 
las coordenadas de a). También seguiremos este convenio que significa que 
el rango de la matriz X es igual a 7. 

A veces es más cómodo tratar con los vectores ortogonales Xi, .. n 
Xr, o sea, con los vectores que satisfacen la condición (X,, Xj) = 0, i # j, 
donde (a, b) significa el producto escalar. Si el conjunto inicial de vectores 
linealmente independientes (Xx) no posee tal propiedad, el mismo puede 
ser ortogonalizado introduciendo nuevos vectores: 


Xí = Xn 
X + aaXi, 


(4) 


O E 
Los coeficientes ax, se deducen fácilmente de las condiciones de ortogonali- 


AX) a 
W X . Las relacio- 


dad Xý Ł Xj, k # j, así que, por ejemplo, a2,ı = — 
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nes (4) pueden ser escritas en forma de X’ = AX, donde A es una matriz 
invertible triangular (con unidades que pasan por la diagonal principal). 
De aquí obtenemos X =A”'X", Y =a4”'X" + £ Hemos llegado al 
problema de regresión con coeficientes £ = a4”*. El vector œ se recons- 
truye de un modo evidente por £ con ayuda de la igualdad œ = 8A. 

Para una regresión lineal elemental, la suposición acerca de la ortogona- 
lidad de X; = (l, .... 1) y X2=(2, ..., 2n) significa la suposición de 
Ez = 0 que, evidentemente, puede ser satisfecha variando el comienzo de 
la lectura de la variable z. 

2. Estimación de los parámetros. En lo sucesivo supondremos por do- 
quier, que 7 < n y que los vectores Xx, k = 1, ..., r, son linealmente inde- 
pendientes. La función de verosimilitud de la observación Y (con X dada) 
para la regresión (1), (2) es igual a 


Jaa) = m af- + $ @ si Fu) s 
Gie E o 


La función (5) depende del parámetro 0 = (a, o”). Nótese que si (5) 
se considera como función de verosimilitud no de una sola observación 
Y (o, (X, Y), sino de n observaciones yı, ..., Yn, ella no corresponderá 
a la muestra de una familia paramétrica cualquiera. Las observaciones y; 


se refieren a distintas distribuciones b,,.2, y; = 2) aux, x que dependen 
a) 


de xs. Por eso las consideraciones expuestas en los capítulos anteriores, don- 
de se utilizó la misma distribución de los elementos de la muestra, aquí 
no se aplican directamente. 

Así pues, examinaremos (5) como función de verosimilitud de la obser- 
vación (X, Y). Hagamos uso del método de verosit d máxima. Directa- 
mente de (5) se deduce que la estimación de verosimilitud máxima a* = &* 
que maximiza fo(Y) respecto a a es la estimación que minimiza |Y ~ aX]? 
Por eso en nuestro caso el método de verosimilitud máxima coincide con 
el «método de cuadrados mínimos». 

Designemos por -/1X] el subespacio tendido en los vectores Xi, ..., 
X,. El mismo constituye una población de puntos en forma de «Y cuando 
a recorre los valores de R’. La dimensión de este espacio es 7 y en él sólo 
hay un punto $ = a" X que es el menos alejado de Y (fig. 7). El valor de 
£ está univocamente determinado por la condición de ortogonalidad Y - £ 
y 41X], o bien, que es lo mismo, por las 7 condiciones 


(PAX X) = (Y-A XNXX = 0, k=l, r 


30—8030 
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En forma matricial estas condiciones pueden escribirse del modo siguiente: 
(Y — a*X)X" = 0. De aquí hallamos 

al= YX TAX). © 


Aquí, la matriz inversa (XX()”! (del orden de r x r) existe, ya que la matriz 
D = XX" está definida positivamente En efecto, hemos visto que existe 


Fig. 7. 


una matriz no degenerada A tal que las filas de la matriz X’ = AX son 
ortogonales. Por consiguiente, la matriz D puede ser escrita del modo si- 
guiente: 


XX! = ACUXUX AS A'B ~Y, 
donde B = X'(X')” es una matriz diagonal con los elementos 


., -fM/P>0 parai=j, 
amy o 
Por lo tanto, B está definida positivamente, aBa” > 0 para cualquier a € R’, 
a 50. Poniendo b= 4A, obtenemos bDb” = aAXXTA”a” = aBa” > 0 
para cualquier b€ R’, b 54 0, que es lo que se necesitaba demostrar. 
i } = X X) 

Si Xk son ortogonales, de (6) hallamos aj = We X 

El resultado (6) también puede ser obtenido derivando (5) respecto a 
a e igualando a cero las derivadas. 

La diferencia Y — a” X a veces se llama resto. Esta diferencia es ortogo- 
nal a -/1X] y, al mismo tiempo, a cualquier vector yX € -41X], y € R’. Si 
se adopta y = a* — a, de la igualdad Y —- aX = Y - aX + (a° — a)X se 
deducirá 


IY - aX? = (Y - aX? + (lo? — XË. o 


Hallemos ahora la ev.m. para o”, De (5) se deduce que ésta será la mis- 
ma estimación que para una familia normal (se puede volver a derivar (5) 
respecto a ø, igualando a cero la derivada), así que 


Ey =i Y- ax? 6) 
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IY- xX =i Y. (9 


En lo sucesivo Æ; significará una matriz unidad de orden /, o° = Vía)". 


Teorema 1. (6) y (9) son las estimaciones eficientes no desplazadas e 
independientes de los parámetros a y o”. Además, 


(a = a)D'®? E Poe, D = XX", (10) 
(n — XPV /È = |Y ~ a*X/0? € Hn- u) 
Si Xx son ortogonales, aj son independientes, 
(ai — ax)[Xx| € Boo. (12) 
Corolario 1. De (10) y (11) se deduce que 
(o? - a)D(a" - a)” _ lla? xP 
a A E EA us 


Sean &, &* “subvectores” de dimensión | < r de los vectores a y a° for- 
mados por coordenadas de números fijos kı, ....., ki, y sea X una matriz 


JSormada por las filas Xx,, ..., Xx. Entonces, si Xx, k=1, ..., 1, son 
ortogonales, entonces 
(3 - DAX)” € Bore, (ad — ax) Xi /0" E Tror. (14) 


Demostración del teorema 1. En vista de que YX" = aXX" + EX”, en- 
tonces 


a=(YAT—-EXD"!, a amix TD"! (15) 
La matriz de segundos momentos del vector (a° — a)D!” es igual a 
MDV%a* — Ja" - ap = 
= D? D- 'XME EXTD DO” = PE. 
Como las componentes de este vector son normales, ellas son independien- 
tes y + Ka — a)D2? € H,. Luego, en virtud de (7) y (9), 


(n = PY = |Y — aX? = |t}? — fa" — xP. 
Cerciorémonos ahora de que los vectores a* e Y — a* X (y, por consiguien- 
te, a” y a”) son independientes. En virtud de su normalidad es suficiente 
comprobar que los coeficientes de correlación entre sus componentes son 
iguales a cero o bien, que es lo mismo, que la matriz de segundos momentos 
centrales M(a* — a) (Y — a"X) es igual a cero. Nótese que en virtud de (6), 

a`X = YX XX") X= YX "DK, 
30" 
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y el vector a" X se obtiene de Y mediante la proyección de Y sobre -1X]. 
El operador de proyección, definido por la matriz II = X7D”'X, posee 
propiedades evidentes: IP = TI, BXTI = BX para cualquier matriz B que 
tiene r filas. Por eso, en virtud de (15), 
M(a* — (Y — aX) = MD" XE E EXTD'X) = 

= D"'Xó E, - M) = 0. 
Demostremos ahora (11). En virtud de (7), 


IY - XP = (2 — (a? - XP = IP — a — aD, 
donde l, |ë? € Hn, — [(a* - JD"? € H, (véase (10)). La afirmación 
w F 


(11) será el corolario de estas relaciones y del lema 1. 

Lema 1. Si y = 1 + mz, donde qı y m son independientes, y € Hn, 
m € H,, entonces m € Ha=,. 

Demostración. Si se designa por g(1) la función característica de la dis- 
tribución Hy: p(t) = (1 + 21)7 ">, entonces 

Me™ = el" = py Me™. 

Como g(t) » 0 en el eje real, entonces Me” = p(¢)"~’. El lema queda 
demostrado. 

El no desplazamiento de las estimaciones a* y (0?)" se deduce con evi- 
dencia de (10), (11) (My = / si y € Hi). 

Nos queda demostrar la eficacia de la estimación 9* = (a*, (0?)"). Para 
esto debemos notar que la familia (5) pertenece al tipo exponencial, ya que 
(5) es representable en la forma (véase (2.15.1)) 


a= ED apf- zir (P -2% a + ax) = 


r+L 


=h na| È aoun + VO, 
donde 
MY) = 27)", V(O)= — nino > laX?, 


ak 


aO, UNN X k=l. 


ams, U) = YÈ 


Como las condiciones de los teoremas 2.15.1 y 2.15.2 aquí se cumplen, la 
estadística U = (U: (X), . . ., Ur+ 1(%)) (y junto con ella también 8°) es una 
estadística mínima suficiente completa. De aquí se desprende (véase el coro- 
lario 2.15.1) la eficacia de 0”. 
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La afirmación (12) resulta con evidencia de (10), ya que para Xx ortogo- 
nales, la matriz D'”? es diagonal a los elementos |Xx| dispuestos diagonal- 
mente. El teorema queda demostrado. 

Observación 1. Hotelling (véase [83] demostró que Dax > 0/|Xx|? y 
la igualdad se alcanza tan sólo en el caso cuando X% son ortogonales. Ahora 
bien, al planificar un experimento para valores dados de |Xx|, la elección 
óptima del regresor X consiste en hacer ortogonales Xk. 

Observación 2. Es interesante comparar la matriz de segundos momen- 
tos de la estimación 6”, con la frontera inferior para las estimaciones no 
desplazadas, la cual se define, en virtud de la desigualdad multidimensional 
de Rao—Cramer, por la matriz 1” '(9), donde 1(6) es la matriz de informa- 
ción de Fisher: 


S aL. x 
KO) = WON, 1460) = MO ¿57 $ » L= L(Y; 9) = nfo(Y). 


Aquí hemos adoptado ĝk = ax, k = 1, . . n 7, 0r+1 = o°, Supongamos, para 
abreviar, que Xx son ortogonales. De la independencia de 0} se deduce que 
la matriz M»(0" — 6)7(0" — 0) será diagonal a los elementos dispuestos dia- 
gonalmente: 


. e 

-aĵ = = 

Mola — a}? =- T ds Lock 
E A 


Mod 2, 


Mo((o”) — 0%) =M 


a 
donde x/ € H;. 
Por otro lado, para la matriz K(0), en virtud de que 
ôL 
Ey =+ Èh- Foni) = + (Y - aX)XF, 


dei 


hallamos, cuando k=1, ... 


Tex(0) = Mo + XalY — aXUY — aXX = 


> Mx z ME Xy = aa = pe y 


[DE - NJ- o=o 


i21 


Dear 
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cuando į # j. Así que 


TP 0 o 
nu) = 
0 pea 
pe 
0... 2 
Por lo tanto, en la desigualdad de Rao—Cramer, 
Ma(0 ~ 070" - 0) > 170), (16) 


para las primeras r componentes de 0” se alcanza la igualdad. Para la com- 
ponente r + 1, la igualdad no puede alcanzarse (aunque asintóticamente, 
para n=»0o, ambos miembros de (16) se comportan con igualdad), ya que 
la condición necesaria y suficiente del teorema 2.16.1A aquí no se cumple. 

Observación 3. La suposición acerca de la normalidad de e; se vuelve 
poco importante para las afirmaciones (10)—(12), si n es grande (en (11) 
es mejor realizar la normalización y afirmar la proximidad a la ley normal). 

Observación 4. El propio término “regresión” se refiere a la distribución 
conjunta de dos variables aleatorias £ y y y significa la curva 


g) = M(n/f = x) 


que también se llama regresión de y en £. Por ejemplo, si (E, 1) € Py,a2, 
y = (Yı, 12), È = [ouh i, j = 1, 2, entonces, como hemos visto en los capí- 
tulos anteriores, g(x) = y2 + 22. (x — yı). Esta es una regresión lineal ele- 


on 
mental. 


Observación 5. La suposición E € Bo,.* acerca de la igual distribución 
de Es cuando se conoce o”, puede ser debilitada. Podemos considerar que 
Es € Bo,oj, si o; son distintas y conocidas. En este caso, designando por 

a 0 
o la matriz diagonal o = En ) e introduciendo nuevas variables 
0 “on 
E =o), X'=Xo"!, Y'=Yo"' (así que E/=¿/01, x= x1/01, 
yí = y:/01), llegaremos al problema de regresión 
Ysa +E 
en el que conocemos el vector de observaciones Y’ y el regresor X’, 
É' E %o,z,. Es fácil comprobar (el lector puede hacerlo personalmente) 
que es válido el siguiente análogo del teorema 1 
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Teorema 2. La estimación 
a’ = Yo XD)", D'=X0 XT, 
es la estimación eficiente no desplazada de a, 
(A — DY” € &o,z, 


ae 
a (O Sais 
rear Y R2 


1m1 


€ Ha-r. 


Recurramos de nuevo al teorema 1. Las relaciones (10) —(12) estableci- 
das en este teorema permiten construir conjuntos confidenciales tanto para 
distintas coordenadas de $ como para el vector 6 en total. Por ejemplo, 


r (Lg <p e, a7 


y si Xx son ortogonales, entonces 


Polos -= a| < HT, =1-6 a8) 


donde Th-r((—1e/2, te/2)) = 1 — £, Hn- AAR, ARY = 1 — e 
Supongamos que Xx son ortogonales. Designemos por & el “subvector” 

del vector a, definido en el corolario 1. En virtud del teorema 1 es natural 

construir el conjunto confidencial para & valiéndose de la relación 


E <a a9 


El valor de fz, correspondiente al nivel disponible 1 — e, se determina de 
manera conocida (véase el capítulo 3), o sea, mediante la distribución de 
Fisher F1,n-, con /, n — r grados de libertad. 

Si se conoce o”, el intervalo confidencial será definido por la relación 


(20) 


donde he corresponde a la distribución Hy. 

En los problemas de regresión puede resultar que también sea necesario 
estimar el valor de la superficie de regresión y = oz” en un nuevo punto 
dado de antemano, z = (21, . . ., Z) € R". Pongamos y" = a*z”, Entonces, 
como antes, hallamos 


y'= y= (a - a) = XTD TE ba, 


Pesoz, € Tn-,- 
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Esto da la posibilidad de construir los intervalos confidenciales para y. 

Cabe señalar que la determinación de la región confidencial para la 
superficie de regresión es “en general” un problema más complejo (compá- 
rese con [30]). La población de las superficies que entran en el conjunto 
confidencial será determinada por el conjunto confidencial para 0 construi- 
do, por ejemplo con ayuda de (10), (11) (véase el $ 3.8). Esto se expone 
más detalladamente en [30]. 

3, Verificación de las hipótesis con respecto a la regresión lineal. Aquí 
toquemos dos tipos de problemas. 

1) Supongamos que sabemos que la representación (1), (2) tiene lugar. 
Se necesita verificar la hipótesis de que 9 es igual al valor dado de 0” o 
que el conjunto de coordenadas 0x,, . . .. Ox, es igual al conjunto de Pk, 
+ « + Of, mientras que las demás coordenadas se desconocen. 

El criterio para verificar tales hipótesis ha de construirse con ayuda de 
los conjuntos confidenciales (17)—(20) (véase el $ 3.8). Supongamos, por 
ejemplo, que se necesita verificar la hipótesis Æ, la independencia de Y 
respecto a X para una regresión lineal elemental, o sea, la hipótesis 
H, = (02 = 0). Entonces, de (18) (o de (14)) obtenemos el criterio de nivel 
1 — e que rechaza H; si 


laz] > tero"//X2l. (21) 


En el caso general de la regresión (1) con Xx ortogonales, la hipótesis 
de independencia de Y respecto a X tendrá la forma Hı = {@ = 0), donde 
% = (œz, ... ar), xn = 1, y para su verificación se puede aprovechar el 
criterio 


Q2) 


donde X y fe están definidas en (19) para /=r — 1. 

También se pueden utilizar los enfoques del $ 3.15, donde fue examinada 
la verificación de la pertenencia de la muestra a una subfamilia paramétri- 
ca. Entonces llegaremos al criterio de relación de verosimilitud, el cual, 
desde cierto punto de vista, será semejante a (22). Si se conoce a”, entonces, 
el crv. para verificar Hı = (& = 0} tendrá la forma 
a XP? > he, 
donde he es la cuantila H,- , de orden 1 — e. Este criterio será minimax 
(véase los $$ 3.9 y 3.10) para las alternativas correspondientemente se- 
paradas. 

2) Verificación de la hipótesis de que en la muestra (X, Y) está presente 
la propia regresión (1), (2). Por estas palabras entendemos la hipótesis de 
que para æ y o cualesquiera tiene lugar la representación (1), (2), o sea, 
para a: y o cualesquiera es válida o” (Y — aX) € $o,.. Este es el proble- 
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ma de pertenencia de Y a una familia paramétrica. Pero como ya hemos 
señalado, las observaciones en Y no están igualmente distribuidas. Para 
reducir el problema al caso de distribuciones igualmente distribuidas (véase 
el $ 3.17), haremos uso de la afirmación siguiente, que completa el teore- 
ma 1. Consideraremos que Xx son ortogonales. 


Teorema 3. Sea C cualquier matriz ortogonal de orden n X n que con- 
tiene, en calidad de primeras r columnas, las columnas de la matriz 
XTD- 12. Entonces, el vector 5 = (Y — a" X)C tiene coordenadas indepen- 


dientes que poseen la propiedad ô; = . . . = ô = 0, ô @ bo, i =r + 1, 
sadi 

Ahora bien, el problema se reduce a la verificación de la hipótesis de 

pertenencia de la muestra ôr+3, ..., ón, de volumen 2 —r, a la familia 


Po, o? en términos generales (7 observaciones se utilizaron para estimar a). 
Este problema fue examinado en el $ 3.17. Para obtener los valores de ô; 
es necesario, basándose en las muestras X e Y, calcular sucesivamente los 
valores de a*, Y — a*X y aplicar a Y — a*X cualquier transformación C 
dotada de las propiedades indicadas en el teorema 3. Si se conoce a, llegare- 
mos al problema de verificación de la hipótesis simple de pertenencia de 
$o.. No obstante, en este caso, para verificar la hipótesis que nos interesa 
también se puede utilizar el teorema 1, en virtud del cual 


(n = rXÊY/È € Hn=r. 


Demostración del teorema 3. Si Z L ./1X], entonces, las primeras 7 
coordenadas del vector ZC forman el vector ZX7D7™? = 0, Como 
(Y = aX) L ZIX] y ô = (Y - a'X)C, de aquí resulta que ô =... = 
= ô = 0. Seguidamente, 


ô = (Y - aX)C — (a — a)XC = y - 7D" XC, 


donde 7 = ¿C 7 = (m, . . 0) = (a* — 0)D'? = ẸX"D-"? y, por consi- 
guiente, 6 es el resultado de la transformación lineal sobre 1, 

B = Y- aX? Pm AA an D h 

- Ez 
así que )] ô= J, nf Esto sólo es posible en el caso cuando (0,4 1, 
isthi aa 

- y Ôn) es el resultado del giro del vector (nr+1, .- ., n), O bien, que 
es lo mismo, el resultado de la transformación ortogonal sobre (9,+1, ..., 
nm). En vista de que a”? € Bo,x,, el teorema queda demostrado. 

Ejemplo 1. En este ejemplo describiremos el aspecto matemático de un 
experimento físico con cuya ayuda fue descubierto el efecto de desintegra- 
ción del mesón p en dos mesones r (véase [85]). El resultado obtenido 
tiene carácter estadístico y en él se utilizó, en esencia, el modelo de re- 
gresión. 
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La investigación se refiere al estudio de la interacción de los electrones 
(e~) y los positrones (e” ) en los haces que vienen al encuentro. Si la energía 
total de estas partículas 2 se encuentra en el entorno del punto 
2E = 1019,6 MeV (fig.8), entonces, al producirse el “choque”, de las mis- 
mas, como resultado de la acción mutua se forman (a la par con otras) 
partículas de dos tipos: mesones ø y mesones ~. La probabilidad de surgi- 
miento de pares de mesones x durante la interacción de e* y e” conforme 
a la energía E, se describe con gran precisión por medio de la función lineal 
que presentamos en forma de (hipótesis H,) 

PE) =w0+a% x=E- Eo, 83) 
donde æ, a; se desconocen. 

Fue planteada la suposición (hipótesis M2) de que al desintegrarse los 
mesones y generados, también pueden aparecer pares de mesones rr. Prácti- 
camente es imposible revelar este efecto de un modo directo, ya que se ha 
establecido que tal fenónemo, si ocurre, se produce muy raramente: no más 
de una vez en 10* desintegraciones de mesones p. No obstante, gracias al 
efecto de interferencia de este canal adicional de engendramiento de meso- 
nes , con el canal principal, la probabilidad de que se produzcan dichas 
partículas será igual no a (23) sino a 


PE) = [a + aix] E + | as) 


(al igual que en (23), ésta es una aproximación muy exacta de una fórmula 
más compleja, basada en el hecho de que el intervalo de variación que 
se examina, o sea, x = E — Ep, es pequeño en comparación con Eo). En 
esta igualdad, los coeficientes b,, al igual que a, se desconocen, pero d 
se conoce. 

Para establecer cuál de las dos relaciones, (23) ó (24), tiene lugar en 
realidad, x ejecutaron n = 20 experimentos con distintos valores de energia 
Ei, «n Ezo. 

Los resultados de los experimentos (véase la tabla 1 y la fig. 8) son 


v 
10% 
's 
s 
a 
3 
A Ls 
O s — 
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Fig. 8. Las curvas representan las estimaciones de las líneas de regresión para las hipótesis 
Hi y Ha 
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las cantidades N,, i = 1, . .... 20 de interacciones de e* y e”, y las cantida- 
des vı de pares de mesones r engendrados con energía Ei. En cada uno 
de los experimentos efectuados, los números N; y »; son bastante grandes 
(N; es del orden de 10°). En vista de que cuando ;, es fijo, el número 
vi de pares de mesones w tiene distribución de Bernoulli Bp/(p; = pT(E;) 
en la hipótesis H,, y pi = pI*(E¡) en la hipótesis 42), entonces, utilizando 
la aproximación normal, podemos considerar, con derecho, que tiene lugar 
la representación 


y A = PH ën E Boe 


Tabla 1. Tabla de los datos experimentales 


(en el sumando ¿, también entran los ruidos eventuales (fondo)). En virtud 
de (23) y (24) tendremos dos posibles variantes de regresión: 


1 
p= E, Y) =x, k=0, 1 (25) 
(hipótesis H1) y 
3 
Jen 
p= 2 y ad, Ve) = ar» Ke =0,1,2,3 (6) 
2 + 
(hipótesis Ha). 


Al variar las hipótesis, los valores de o/cambian muy poco; éstos pueden 
ser apreciados muy exactamente y podemos considerar que son conocidos. 
Entonces, basándose en æj teorema 2, la distribución de la estadística 


tajr- Zarf - E (u- Foie) ja en 
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será Hi», donde r es el número de parámetros sujetos a estimación ax 
(r =2 en la hipótesis Mı, y r = 4 en la hipótesis Ha). 

Tras realizar los cálculos necesarios conforme a las recomendaciones 
del teorema 2, obtendremos, para la estadística (27), los valores siguientes: 
en el primer caso (7 = 2) xá = 36,8, y en el segundo (7 = 4) xå = 19,0. Los 
niveles significativos realmente alcanzables (véase el $ 3.4) del criterio 
xÉ > c para verificar las hipótesis H: y H2 (como principales) constituirán 
His((0, 36,8) = 0,9944 y His((0, 19,0) = 0,731. 

Con otras palabras, la suposición de que falta el canal adicional de en- 
gendramiento de pares de mesones 1 es rechazada por el criterio fundado 
en la estadística x? con nivel de significación igual, por ejemplo, a 0,99. 
Al mismo tiempo, la suposición acerca de la existencia de este canal con- 
cuerda bien con los resultados experimentales. 

Hablando más exactamente, en este problema deberíamos verificar dos 
hipótesis paramétricas compuestas, correspondientes a las suposiciones (25) 
y (26) para los valores de las probabilidades de aparición de pares de meso- 
nes r. Si utilizamos el criterio de relación de verosimilitud, éste, como es 
fácil comprobar, se basará en la diferencia de las estadísticas x? correspon- 
dientes a los modelos (25) y (26) y, por lo tanto, sus resultados serán aproxi- 
madamente los mismos. 

4. Estimación y verificación de las hipótesis al existir relaciones lineales, 
Examinemos, como antes, la regresión lineal (1), (2), pero suponiendo que 
las coordenadas del vector a están ligadas mediante s < r relaciones lineales 


È au = 
Ksi 


En forma matricial estas relaciones pueden escribirse del modo siguiente: 
aA =c (28) 


donde A es una matriz de orden r X s. Supongamos que A es de rango s. 
En este caso podríamos expresarlas s variables (digamos, œr-s+1, » 
- ., a) a través de las demás (o sea, a través de œi, . . ., ar- s), sustituir 
los valores obtenidos en (1), (2) y volver a obtener el problema estándar 
de regresión lineal (pero con regresor modificado). 
Pero para la exposición ulterior trataremos de resolver este problema 
de un modo algo distinto. Recurramos a la demostración del teorema 1. 
El subespacio .a/ de valores œ, definido por las relaciones (28), separa en 
-/1X] el subespacio de dimensión s y de valores aX, el cual designaremos 
por -4 [X]. Es evidente que la estimación «œ € 2/ ahora puede efectuarse 
a base de los mismos procedimientos que hemos utilizado en el teorema 1, 
La estimación necesaria œ4 €/será determinada, al igual que en el teore- 
ma 1, con ayuda de la proyección 4X del vector Y sobre -44 [X]. Ahora 
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bien, a la par con la relación (Y — a*X) L -/IX] tendremos la relación 
(Y — 04 X) L 44 [X] que define univocamente a. Para obtener el propio 
valor de œ} es más cómodo hacer uso del enfoque analítico, o sea, aplicar 
el método de multiplicadores indeterminados de Lagrange para encontrar 
mín |Y— aX]? a condición de que «4 = c. Para esto debemos resolver las 


ecuaciones 


aA =o 37 [ir ax? + waa = o) = 0 (29) 


(utilizamos los multiplicadores Ay, . . ., A que forman el vector A y que 
corresponden a las condiciones (28). En vista de que |Y — aX}? = (Y — 
= aX)(Y — aX)", la segunda de las ecuaciones (29) adoptará la forma si- 
guiente: 

-2YX" - aXX" + M" = 0. 
De aquí hallamos 


ai = YATD PAD = a 


Tyna 
7 MID". 


En virtud de (29), ¢ = ajA = aA — L147D”!4. Como la matriz D está 
definida positivamente, y el rango ŭe A es s, el rango de la matriz 
B = D”'”A también será s, y la matriz B7B = ATD”!A también estará 
positivamente definida (véase el punto 1). Por consiguiente, 
= $à = (c - “ADA, 
a = a" + (ca A)DAATD™', (30) 
donde suponíamos, para abreviar, Da = [47D74]7!. 

El lector puede comprobar que hemos obtenido la ev.m. del parámetro 
a a condición de que œA = c. Ese mismo resultado (30) también se puede 
obtener de las consideraciones geométricas, utilizando las relaciones 
aX €-4 [X] y la ortogonalidad 

(04 1-4, en 
(044 — a°)X = (Y — aX) — (Y - 04%) 1 A[X]. 

Recurramos ahora al problema de verificación de las hipótesis lineales. 
La hipótesis FI; respecto al parámetro a se llamará hipótesis lineal si su 
forma es Hı = {aA = c}, donde las matrices A y c han sido definidas ante- 
riormente. 

Inmediatamente podemos señalar que introduciendo el nuevo paráme- 
tro 8 = ade, donde A. es cualquier matriz no degenerada, cuyas s primeras 
columnas coinciden con A, reduciremos el problema a la regresión 

Y=BX' +E X'=A'X, 


ya la verificación de la hipótesis $ = c B = (81, . 


~s Bs) (véase el punto 2). 
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También es natural partir de las consideraciones siguientes. Cuanto más 
se distinga œA de c, tanto más lejos permanecerá aX de ⁄ [X] y tanto 
más se distinguirán los puntos aX y a` X de aX € 44 [X]. Por eso es natu- 
ral suponer que la base del criterio para verificar Hi es la distancia que 
separa a3,X de «`X. Si la hipótesis H; es cierta, entonces, en virtud de (31), 


Ka - a) X? = IY — aX? — |Y - a*x (33) 


En virtud de (30) (sustituyendo c por œA), a4 — a” es el resultado de la 
transformación lineal sobre a: — a". Por eso (aå — a*)X no depende de 
Y — a° X (véase el teorema 1). 

Seguidamente, en virtud de (30), 


Nai — a") X? = (aå — a) XX (04 — a°)" = 
= (c = a“AJDalc - a*A) = (a° — a)AD4AT(a* — a)”. 84) 
En vista de que 
(a* — a)A = EXTD"'A € ®op47D-'A 
en virtud de (34) y del § 2.2 (punto 4) 


oeno 


A Moi - xP € B.. 69 


De lo dicho y del teorema 1 resulta que 
aapi poet 10 Fnnr. (36) 


Las relaciones (35) y (36) nos permiten construir los criterios (basados en 
la utilización del alejamiento de a*X respecto a «4X) para verificar la hipó- 
tesis H; en los casos cuando o? se conoce y se desconoce, respectivamente 
(véase el capítulo 3). 

Cabe señalar que A; es la hipótesis de pertenencia de æ a una subfamilia 
paramétrica (al existir el parámetro obstaculizador o°, si o? se desconoce), 
y las estadísticas (35) y (36) no son otra cosa sino las estadísticas de la 
relación de verosimilitud (véanse los $$ 3.10 y 3.15). En efecto, supongamos, 
por ejemplo, que desconocemos o”. Entonces (véanse (5) y (8), 


mp, Sf) = supir oap- tzt) 5 


El valor de sup fa(Y) se calcula exactamente igual. Sólo es preciso señalar 
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que la e.v.m. para œ, en el caso de aa €% será añ, y la ev.m. para o? será 
igual, así como en (8), ai IY — añ X[. Por eso 


39, 100 (A) "e, 


ID y ar 
sup f(Y) — |Y—04X" 


y, por consiguiente, la estadística del criterio de relación de verosimilitud 
equivale a (36). 

Si o? se conoce, como base del criterio para verificar A, se puede adop- 
tar la relación (35). Análogamente a lo expuesto más arriba, el lector puede 
convencerse de que el resultado obtenido también es el criterio de la relación 
de verosimilitud, Como este criterio es invariable respecto a la sustitución 
del parámetro (véase el $ 3.10), entonces, en virtud de la advertencia y las 
afirmaciones de los $$ 3.9 y 3.10, se puede afirmar que el crv. 


Wai — a") X? > ohe, 


donde A: es la cuantila de orden 1 — £ de la distribución H,, la cual cons- 
tituirá el criterio minimax de nivel 1 — e para verificar H, frente a las alter- 
nativas separadas respectivamente. 

Lo dicho más arriba y los resultados de los capítulos 2 y 3 (en particular 
el $ 3.15) dan razones para considerar que los criterios (36), al igual que 
la estimación (30), también poseen propiedades de optimización. Aquí no 
nos detendremos más detalladamente en este material. Una exposición más 
completa de los problemas de regresión se ofrece en [83]. 


$ 4. Análisis de varianza 


Los problemas de análisis de varianza que se exponen en este párrafo perte- 
necen, en su esencia, a los problemas de regresión. En los últimos de ellos 
hemos estudiado la dependencia de las observaciones del factor numérico 
x que podía adoptar cualesquiera valores dados de antemano xi, ... 
+ + »» Xn, y a cada uno de ellos le correspondía una sola observación. En 
los problemas de análisis de varianza suele estudiarse la influencia que ejer- 
cen únicamente los factores discretos (uno, dos o más) que pueden tomar 
exclusivamente un número finito de valores. Para cada uno de estos valores 
disponemos de un conjunto de observaciones (de una muestra). El análisis 
de varianza une un grupo de procedimientos estadísticos basados en el aná- 
lisis de las desviaciones estándar y destinadas a verificar diversas hipótesis 
y estimar los parámetros relacionados con la influencia de los factores. Los 
fundamentos del análisis de varianza fueron establecidos por Fisher. 
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1. Problemas de análisis de varianza como problemas de regresión. El 
caso de un factor. Supongamos que se dan r muestras independientes 


Yi = (Yus + Yim), ++ Yr = Yrs ++» Yon) 


de volúmenes M, . . „ n, de las poblaciones normales: Yr € Pano”. Se su- 
pone que las observaciones Yx, k = 1, . . ., 7 se han realizado con diferentes 
valores de cierto factor cuya importancia nos interesa y que la influencia 
de este factor se refleja en el valor de la media œx. Se supone, además, 
que el valor de la varianza o? es el mismo para todas las muestras y, por 
regla general, es desconocido. Los problemas de análisis de varianza com- 
prenden la verificación de las hipótesis referentes a los valores œi, ... ., Ur 
y, en particular, de la hipótesis acerca de la homogeneidad de a =...= 
= q, = a (en el $ 1 hemos examinado este último problema), así como 
las estimaciones de los parámetros œx y de su variabilidad. 

Al igual que los problemas de regresión, el análisis de varianza se aplica 
ampliamente, sobre todo en la sociología, la agricultura, la biología y la 
medicina. En calidad de un problema muy típico para aplicar los métodos 
del análisis de varianza se puede nombrar, por ejemplo, el problema de 
aclaración de la dependencia que existe entre el contenido de colesterina 
en la sangre de una persona y su profesión. 

Los problemas de análisis de varianza enunciados anteriormente son 
casos particulares de los problemas de regresión lineal. En efecto, las obser- 
vaciones yx; pueden representarse en la forma 


Yu = ak + E Edo kal, oa n i=l, + Mo 0) 
Formemos el vector 


Y a (Yn, +. Yimi Yats +++ Yam -e Yes «e s Ym ) 


y el vector £ observando esa misma regla. Entonces, las relaciones (1) pue- 
den ser escritas en la forma matricial Y = aX + E, donde X es una matriz 


de dimensión rx n, n =n, +... + mn, que tiene la forma siguiente: 
E Lia 1 
0 0...0 
x=00...0 
00.. 0 


Es evidente que las filas de esta matriz (vectores X;) son ortogonales. La 
hipótesis Mı = {œ = œ = . . . = ar) puede escribirse del siguiente modo: 


aA =0, 
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donde A es una matriz de dimensión r x (7 — 1): 
1 0... O 


a Lou. —1 


Es evidente que el rango de A es r— 1, 

Vemos que la verificación de la hipótesis principal A del análisis de 
varianza no es otra cosa sino el problema de verificación de la hipótesis 
lineal para la regresión, 

Vamos a aclarar qué son las estimaciones eficientes para æ y o? halladas 
en el teorema 3.1. En nuestro caso [Xx]? = nx, la matriz D = XX" de orden 
rx r tiene la forma 


o 
0 
0 O ... me 
pa LS 
A) n La Yri Yao, a) 


Mn AP E Sou- 7P e a. 


En este caso, aĵ, . . .. as, (o?) son independientes. Los intervalos confiden- 
ciales para los parámetros œ, o”, así como sus funciones, se construyen 
al igual que en el $ 3. 

Para verificar la tesis lineal (2) también debemos calcular la e.v.m. 
exi al existir la condición (2) (véase el punto 4 del párrafo anterior). Aquí, 
el método más simple consiste en utilizar el enfoque expuesto al principio 


del punto 4 del párrafo 3, y en expresar œ, ..... a, a través de variables 
independientes. En nuestro caso existe una sola variable independiente: su- 
pongamos que ésta sea a, =p, y aå = (4%, .... a") donde y minimiza 


Pm... E È Ou- 


Es evidente que 


31—8030 
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Y- àX? = Ž Eo ay) = 


+Y R’ = 


=È hou- 7 + É ne. - F? 


kzi im 


(la suma de los productos mixtos es igual a cero, puesto que Ð, (Yxi — 
a 


= Jx.) = 0). Si la hipótesis M es cierta, entonces, en virtud de (3.33), (3) 
y de la igualdad recién obtenida, 


lá - XÈ = ON - AN = E mn - I? 90. 


En virtud de (3.36), al cumplirse Hı obtenemos Q(Y)/QUY) € Fr- 1,n-r, 
lo cual no da la posibilidad de construir el criterio Qi(Y)/@&(¥) > fe Ue 
es la cuantila de F,- 1,n-, de orden 1 — £) para verificar H1, el cual será 
el crv. Si se conoce o°, el crv. tendrá la forma 


QY) > Phe 


(he es la cuantila de Hr- 1) y será el criterio minimax para las alternativas 
separadas respectivamente (véase el § 3.9). 

2. Influencia de dos factores. Enfoque elemental. En los problemas de 
este apartado se investiga la influencia que los factores de dos tipos ejercen 
sobre los resultados del experimento. Con arreglo, digamos, a la agricultura, 
esto puede ser el estudio de la influencia que ejerce la composición del 
suelo (el factor A adopta r valores) y el método de cultivo (el factor B 
adopta s valores) sobre la calidad de la cosecha. 

Aqui las observaciones pueden representarse en la forma 


Yan = axı + Eri, Exu E Boo, (4) 
A A A A 


y el modelo sometido a investigación, en esencia, no se distinguirá en nada 
del modelo (1) examinado en el punto 1. Por consiguiente, aquí también 
son aplicables todos los resultados del $ 3, pero su aplicación directa es 
más voluminosa. Ya de por sí es voluminosa la propia presencia de índices 
triples. Para simplificar algo el problema, pongamos mx, = 1; esto nos per- 
mitirá eliminar uno de los índices (índice ¡en (4)). Además, en este apartado 
proponemos un enfoque elemental algo distinto, que, independientemente 
de los teoremas del $ 3, permitirá obtener las afirmaciones necesarias para 
la verificación de las hipótesis fundamentales. 

Así pues, examinaremos las muestras Yi = yx, de volumen unitario, de 
tal modo que el conjunto de datos experimentales Y aquí será la matriz 
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r X s de los números yx, que determinan el resultado del experimento bajo 
la influencia del k-ésimo factor A y el /-ésimo valor del factor B. Esta matriz 
puede interpretarse como r muestras (filas) de volumen s, correspondientes 
a distintos valores del factor A, o bien como s muestras (columnas) de 
volumen 7, correspondientes a distintos valores del factor B. De acuerdo 
con esto, más adelante precisamente tendrá lugar la agrupación de las ob- 
servaciones. Pongamos 


nst Dy yu ya 

m 

Es válida la identidad 
QU = Y (yu = P? = QM + QM) + O), (5) 


donde 
aM =s E 0 -yY QM =r Y G- y 
GY) = 2 (Ya — Ye — Ya + YY. 


Supongamos que la influencia ejercida por los factores es aditiva, o sea, 
existen ax y b tales que 


a=a+tbykol.. ni=l... 


(6) 

Es evidente que Q; determina la variabilidad de los valores ax (o sea, 
está relacionada con el factor A), Q» determina la variabilidad de b (factor 
B), y Qs es una suma que se origina absolutamente por casualidad. También 
es evidente que 


QUY + a) = OY), ¡=1,2, 3. Mm 
Teorema 1. 1) 


QY/0? € He- na 


2) Si es cierta la hipótesis Ha = (ar 
no depende de (Y) y OY), Q(Y)/0* € H,- 1. Una afirmación análoga 
tiene lugar respecto a Q, y la hipótesis Ha = (b1=... = bs = b). 

3) Si es válida la hipótesis Hı = (041 = a), todas las formas cuadráticas 
Qi, Q y Q son independientes. 

Demostración. Pongamos, sin limitar la generalidad, 0? = 1. Entonces 


„= farra, si j) lk D, 
Myuyy = Ga 1, si © D) = (k, D. 


D (8) 
. = a, = a), entonces Q(Y) 


El 
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De aquí se deduce que 


m(3vu) (Zvu) = (Eau) (Eau) +m, 
donde m es el número de sumandos iguales en las sumas 3) y J). Utilizando 
esta igualdad, ahora es fácil obtener que 
MG. - PG. — Y) = (ax. — Glas — T) = (ax — 2Xb1 — b) (9) 


en caso de acuerdos naturales respecto a las designaciones œx., 0.1, &, @, 
b. Si es cierta la hipótesis H4 = [a = . . . = a, = a), la esperanza matemá- 
tica en (9) es igual a cero. Como en este caso MG. — Y) = ar, — 2 = 0, 
el hecho establecido quiere decir que el conjunto de variables aleatorias 
[Yx. — Y) no depende de (F. — Y). 

Análogamente establecemos que para cualesquiera k, /, i 


Mu — YO. — Y) = 0. 


Esto quiere decir que la población (yx. — Y] tampoco depende de 
[Yu — Fk. — Y. + Y). Esto significa, a su vez, que al cumplirse Ha, Qu(Y) 
no depende de Q,(Y) y Os(Y). El hecho de que Q¡(Y) € H,- 1, se deduce 
del lema de Fisher ($ 2.32). 

Igualmente sucede cuando se cumple la hipótesis Hp. No obstante, si 
es válida la hipótesis Æ; (o-sea, si son válidas H4 y Ha), es evidente que 
los tres conjuntos de variables aleatorias mencionadas más arriba serán 
independientes. Esto significa la independencia de Q.(Y), LY) y QUY). 

Nos queda hallar la distribución Qs(Y). En vista de que esta distribu- 
ción no depende de ax y bı, podemos considerar que ax = b; = 0 para todos 
los k y l y, por consiguiente, se cumple H,. Entonces, de la definición Q(Y) 
resulta que Q(Y) € Ha:- 1. Además, es válida (5), donde Q,(Y) E H;-ı 
y OY) € H,- 1. Nos queda utilizar la independencia Q(Y) y el lema 3.1. 
El teorema está demostrado. 

Con arreglo a los problemas del punto 1 también se puede aplicar un 
enfoque análogo. 

Del teorema 1 se deduce la posibilidad de construir los siguientes proce- 
dimientos estadísticos: 

1) Estimación de los parámetros ax — a, bi — By, o? (los números ar 
y h en (6) han sido determinados con una exactitud de hasta el último 
sumando) con ayuda de las estimaciones Fx. — Fi- 7j (Py = 
= @(Y)/(r — 1)(s — 1). Como, de hecho, las investigaciones realizadas an- 
teriormente coinciden con lo que hemos hecho en el § 3 y en el punto 1 
de este párrafo, las estimaciones mencionadas serán eficientes. Los interva- 
los confidenciales para o”, ax — a; pueden ser construidos mediante las rela- 
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ciones (8), 
Fr. — Yi. — (0% — ai) € Pozos, 


AA Topy 


O 


(para b — by todo ocurre análogamente). 

2) Verificación de la hipótesis Ha con ayuda del criterio Q2/Qs > fe. 
El nivel del criterio constituirá 1 — e si fe es una cuantila de orden 1 — € 
de la distribución F,- 1,41 -10+» 

El criterio para verificar Hp: Q2/03 > fe tendrá una forma análoga, 
donde fe es una cuantila de orden 1 — e de la distribución Fs- 1.(--1(-1+ 

3) Verificación de la hipótesis Æ, con ayuda del criterio 


Qro 
ELETA 


de nivel 1 — e, donde fs es una cuantila de orden 1 — £ de la distribución 
Fr+s-2,0- D6- D- 

Los problemas del análisis de varianza se examinan más detalladamente 
en [82] y [83]. 


$ 5. Reconocimiento de imágenes 


En este párrafo examinaremos brevemente un grupo de problemas para 
cuya designación, además del nombre “reconocimiento de imágenes”, a ve- 
ces también se utilizan los términos “clasificación” y “análisis discri- 
minante” ”, 

En el $ 3.1 hemos examinado el siguiente problema de verificación de 


r hipótesis simples. Se dan las distribuciones Pı, . . .. P, y la muestra X 
de volumen n. Es preciso determinar cuál de las hipótesis, 

Hj = {X € Pj) 0) 
es cierta. 


Sin embargo, en los problemas prácticos, las distribuciones P; a menudo 
se desconocen, y en cuanto a ellas sólo podemos juzgar a partir de las 
muestras. 

Así pues, supongamos que tenemos 7 muestras X; = (xn, ..., Xin), 
i=l, r, de volúmenes m1, . . ., 7, respectivamente, que corresponden 


% Cabe señalar que los últimos dos términos también se usan para designar otros proble- 
mas, por ejemplo, aquellos en los que se conocen las distribuciones P: en (1). 
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a r distribuciones desconocidas Pı, ..., P,, y supongamos, además, que 
tenemos la muestra X. Es necesario resolver otra vez el mismo problema: 
determinar, cuál de las hipótesis (1) es cierta. Con otras palabras, es necesa- 


rio establecer cuál de las muestras Xi, . .... X, es la prolongación de la 
muestra X. Este es precisamente el problema de reconocimiento de 
imágenes. 


Para simplificar la exposición nos limitaremos a estudiar el caso de 
r=2. 

1. Caso paramétrico, Al principio supongamos que P; pertenece a cierta 
familia paramétrica (Po) que satisface la condición (4,), o sea, X; € Po, 
Xz EP o, X € Po para ciertos 01 4 02 y 0 =0, o 0 = 02. La primera de 
estas afirmaciones corresponde a la hipótesis H = {X € Po,), y la segun- 
da, a la hipótesis Eh = {X € Po). 

Supongamos seguidamente, también para simplificar la exposición, que 
los volúmenes m, n y n de las muestras son iguales: m = m = n. 

Examinemos la muestra unida (X, X2, X) y representémosla como una 
muestra de volumen n formada por las observaciones (X1;, X2;, Xi) y pertene- 
ciente a la distribución Po, X Po, x Po que tiene una densidad 
Feo Yolo) dependiente del parámetro 4 = (61, 92, 6). Es evidente 
que la función de verosimilitud de la muestra (Xi, Xz, X) será igual a 


SXi, Xar X) = SA XVn ANV. 


Hemos llegado al problema de verificación de la hipótesis Æ acerca 
de que el parámetro ĝ se encuentra en la “curva” 9 = 6, frente a la hipótesis 
alternativa Ha acerca de que Ú se encuentra en otra “curva” 9 = 07. Este 
es el problema de verificación de la hipótesis de pertenencia a una subfami- 
lia paramétrica (véase el $ 3.15), pero en el caso cuando la hipótesis alterna- 
tiva significa la pertenencia a otra subfamilia paramétrica. El examen de 
este problema es análogo al expuesto en el $ 3.15, pero en cuanto a-su 
dificultad técnica sale fuera del marco de este manual, Aquí nos limitare- 
mos a describir brevemente, para el caso del parámetro unidimensional 0, 
la esencia del resultado, Esta esencia es completamente análoga al conteni- 
do del $ 3.15: si el parámetro 0 ha sido localizado, o sea, si los puntos 
01 y 0» están situados en el entorno de cierto punto ĉo, |0: — 02| > b/Vn 
y si la familia (Po) satisface en el punto ĉo las condiciones de regularidad 
(RR), entonces, el criterio de la relación de verosimilitud 

Up LAA 
Sup TACA > E a 


será, cuando n > «o, asintóticamente minimax para verificar 47, frente a 
H. 
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La limitación m = m = n no tiene importancia. La misma se elimina 
al igual que en los planteamientos del $ 1. 

2. Caso general, En el caso general, cuando no hay razones para suponer 
que X; están relacionadas con una familia paramétrica, es posible un enfo- 
que general basado en las mismas ideas que hemos utilizado al construir, 
en el $ 2, los criterios de homogeneidad. En este caso el criterio x para 
verificar Hi frente a Hz será una función de tres muestras, así que 
x = ríX1, Xa, X) será la probabilidad de que se acepte > para (X1, X2, 
X) dadas. Al igual que antes, el criterio no randomizado es definido por 
la región crítica Q C Lm+m+n en el espacio de los valores de (X1, X2, X). 
Por nivel de significación del criterio se entiende el número 

1- e= df PX Pax PCG, Xa, X 60), 


PRPC 
donde Pes la clase de distribuciones admisibles. El valor 


BrPr, P2 = Pi X P2 X PX, X2, X) €0), 
PERPER 


es la potencia del criterio en el punto (P,, P2). 

El criterio ~ se llama conciliable cuando Bx(P,, P2) +1 para m > œ, 
m —œ, n=» co y para cualesquiera P; * P2, Pi €62 P262 

Como base para construir los criterios conciliables se puede utilizar el 
hecho bien conocido, acerca de la aproximación de las distribuciones empí- 
ricas Px, y Px, para las muestras X, y Xz con P; y P2, respectivamente. 
Si d(P, Q) es cierta distancia entre las distribuciones, entonces, en el caso 
de la hipótesis H2, la distancia d(Px,, Px) debe ser menor que d(Px,, PX). 
Por eso, en calidad de criterio se puede utilizar la desigualdad 


dP, PY) — d(Px,, P3) < 0 


que al ser cumplida se acepta #2. El cálculo de tal tipo de criterios (de 
sus niveles de significación y de su potencia) suele acompañarse de grandes 
dificultades (comparadlo con el tipo de problemas más simples dados en 
el $ 2). 

Utilizando la agrupación de observaciones, en el caso general podemos 
aplicar el criterio asintóticamente óptimo (2). Supongamos que tal agrupa- 
ción se ha hecho en las regiones 41, . . ., Âm Y QUE (vin, - - -, Pim) Y (P1, > > + 

+ «y Vm) son las frecuencias con que en estas regiones caen las observaciones 
de las muestras X;, è = 1, 2, y X, respectivamente. Supongamos, además, 
que 6; = (911, . . ., im) son las probabilidades (P:(4;), . . .. Pi(Am)) de caída 
en las regiones Ay, Am para las distribuciones P;, í = 1, 2. En vista 
de que para la muestra agrupada Xí, į = 1, 2, la función de verosimilitud 
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Sexo) es igual a fo(Xi) = JI O, el criterio (2) tendrá la forma siguiente: 
Ent 
sup D, (zz + »x)ln Ga + sup 2) vin — 
al OA 


m m 
— sup Y) (rix + veini — sup D vzin 0z > Inc, 
A ka CA 


o bien 


+11) ln AE ae Ea ln 44 > 
Y (va + va) pa Ai 


kei 


>inc+ D) Ou + ra) In ZE 4 ra 2E a 50) 


“m+n 
km “ 


Los planteamientos análogos también pueden efectuarse para r > 2. 


CAPÍTULO 5 


Enfoque de los problemas 
de la estadística matemática desde el punto 
de vista de la teoría de los juegos 


En los $$ 1—3 se introducen los conceptos de juegos ordinario y esta- 
dístico. 

En los §§ 4, 5 se examinan los métodos de búsqueda de las decisiones 
estadísticas óptimas 

El material expuesto en los §§ 6—8 está dedicado a la construcción de 
las reglas de decisión asintóticamente óptimas. 


$1. Observaciones preliminares 


En los capítulos anteriores hemos examinado una gran cantidad de proble- 
mas estadísticos diferentes, unidos, todos ellos, por la circunstancia siguien- 
te: el estadista, basándose en datos experimentales, ha de tomar cierta 
decisión. En la teoría de las estimaciones, tales decisiones pueden tener 
forma de estimaciones puntuales 0”, las cuales deben ser adoptadas en cali- 
dad de cierto parámetro desconocido 6. En la teoría de verificación de hipó- 
tesis estadísticas, las decisiones pueden adoptar forma de afirmaciones que 
especifican cuáles suposiciones referentes a la naturaleza del objeto sujeto 
a investigación son ciertas y cuáles son falsas. Dichas decisiones, al ser erró- 
neas, ofrecen pérdidas ulteriores. Por ejemplo, en la estimación de laborato- 
rio (realizada con la ayuda de una muestra), un error en cuanto al contenido 
de diversos componentes en el mineral, puede provocar la alteración del 
régimen óptimo de fusión y el empeoramiento de la calidad del metal fundi- 
do. Esto significa que experimentaremos pérdidas materiales, las cuales de- 
penderán de la magnitud del desacierto. Un error relacionado con la 
eficacia de un medicamento que se comprueba en un grupo elegido de en- 
fermos, evidentemente, también puede provocar pérdidas que, para mante- 
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ner la uniformidad del enfoque, consideraremos que podrán ser calculadas 
en ciertas unidades. También tomaremos este mismo acuerdo con.respecto 
a otros problemas de estadística en los que las pérdidas no tienen un carác- 
ter material claramente expresado. 

Lo dicho nos permite destacar, en los problemas de la estadística mate- 
mática, los siguientes cuatro elementos comunes que, de hecho, determinan 
la esencia de cada problema concreto. Para simplificar la exposición, en 
lo sucesivo hablaremos exclusivamente de los problemas de una sola 
muestra X de volumen fijo n. 

1) Conjunto € cuyos elementos 9 € O determinan el estado del objeto 
sujeto a investigación. Si se conoce 0 no habrá necesidad de construir una 
decisión estadística. El conjunto O también se denomina conjunto de pará- 
metros, aunque f también pueden admitir una interpretación más amplia 
(por ejemplo, el conjunto © puede ser muy rico y coincidir con el conjunto 
de todas las distribuciones en cierto espacio 2"). 

2) Para obtener alguna información acerca de 6 desconocido, el estadista 
hace un experimento y realiza observaciones respecto a cierta variable ale- 
atoria cuya distribución depende de 6. Con otras palabras, el estadista dis- 
pone de la muestra X de la distribución Ps. Como ya sabemos, de dicha 
muestra se puede extraer la información acerca de Ps y, por consiguiente, 
acerca de 6. Podemos considerar que se cumple la condición (40) (véase 
el $2.6) en cuanto a la correspondencia biunívoca entre 0 y Po. 

3) En los problemas de estadística siempre está determinado el conjunto 
D = (5) de decisiones que puede tomar el estadista. En la teoría de estima- 
ción, el conjunto D suele coincidir con ©, pero en los problemas de verifica- 
ción de hipótesis, el conjunto D es finito y el número de sus elementos 
equivale a la cantidad de hipótesis que se verifican. Si se conoce 6, la deci- 
sión ô = a(0) se determina univocamente. Si se desconoce 0, la decisión 
ô ha de ser óptima en cierto sentido. Pero la optimización de las decisiones 
requiere que tengamos la posibilidad de compararlas. Para esto estimare- 
mos que se ha dado la función de pérdidas que determina cuantitativamente 
la consecuencia de la toma de decisiones. 

4) La función de pérdidas w(ô, 0) está definida en D x O e indica las 
pérdidas que sufriremos si tomamos la decisión ó, en tanto que el objeto 
sujeto a investigación, al que se refiere la decisión, se halla en estado 0. 
Consideraremos que w(3, 6) > O cuando ô = p(0), w(p(0), 0) = 0. 

Si de los cuatro elementos mencionados retiramos el punto 2) acerca 
de los datos experimentales, obtendremos el objeto que constituye un juego 
ordinario de dos personas, juego en el que el estadista (investigador) desem- 
peña el papel del primer jugador, y la naturaleza, el papel del segundo 
jugador. 
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$2. Principales conceptos y teoremas relacionados 
con el juego de dos personas 


1. Juego de dos personas. 

Definición 1. Llámase juego de dos personas la terna (D, O, w) compuesta 
por los conjuntos D y © y por la función w que aplica D x © en la se- 
mirrecta (0, œ). Los elementos ô del conjunto D se denominan estrategias 
(operaciones) del jugador 1, los elementos 6 € O se llaman estrategias del 
jugador 11, y w es la función de pérdidas del jugador 1 (o la función de 
ganancia del segundo jugador) que determina las pérdidas w(5, 9) que sufri- 
rá el jugador I si elige la estrategia ô, y las pérdidas que sufrirá el jugador 
II si elige la estrategia 9. 

El principal objetivo de la teoría de los juegos de dos personas consiste 
en elegir la estrategia óptima del jugador 1 que a menudo identificaremos 
con nosotros. Para esto es riecesario ordenar de algún modo el conjunto 
de estrategias. No es fácil hacerlo, ya que las pérdidas w(5, 0), con cuya 
ayuda debemos realizar la ordenación, dependen de dos argumentos, así 
que, para cada 9, la estrategia ô que minimiza w(ô, 0) será, hablando en 
general, su propia estrategia. 

Definición 2. Diremos que la estrategia ô es mejor que 52, si 

w(61, 0) < wêz, 0) para todos 0€ O 109) 


y si existe por lo menos un valor de 6, € O para el cual w(5,, 61) < w(ôz, 01). 
Si sólo se cumple (1), diremos que la estrategia ó no es peor que 62. 
La estrategia ô para la cual 

w(S0, 0) < w(5, 0) para todos 5 y O 


la llamaremos estrategia uniformemente óptima (o uniformemente mejor). 

La estrategia uniformemente mejor asegura las pérdidas mínimas para 
todos 0. No obstante, por regla general, tales estrategias no existen. 

Señalaremos los tres enfoques siguientes para investigar las estrategias 
óptimas del jugador I: 

— determinación de las estrategias uniformemente óptimas en las 
subclases; 

— determinación de las estrategias bayesianas y minimax; 

— estudio de la población de todas las estrategias no mejorables (de 
la llamada clase completa de estrategias). 

2. Estrategias uniformemente óptimas en las subelases. Con arreglo a 
los problemas de la estadística matemática se utiliza a menudo el procedi- 
miento siguiente (véase el $ 5). De algunas consideraciones no relacionadas 
directamente con las pérdidas (consideraciones de simetría, naturalidad del 
procedimiento, simplicidad de los cálculos, etc.) a veces es posible reducir 
la clase de estrategias sujetas a examen, Si esta reducción es tal que después 


492 CAP. 3. ENFOQUE BASADO EN LA TEORÍA DE LOS JUEGOS 


de ella existe una estrategia uniformemente óptima, entonces, asimismo se 
resuelve el problema de elección de la estrategia. Este enfoque debe ir acom- 
pañado de investigaciones de la cuestión acerca de si hemos perdido o no 
(tras reducir la clase) la posibilidad de obtener un resultado mucho mejor. 
Ejemplos de utilización de tal enfoque (aunque referentes a un objeto más 
complejo: a los juegos estadísticos) serán examinados en los dos párrafos 
siguientes. El lector ya sabe de ellos por los capítulos 2 y 3 donde hemos 
examinado las mejores estimaciones (eficaces) en la subclase de estima- 
ciones no desplazadas, así como los criterios uniformemente más potentes 
en las subclases de todos los criterios invariantes o no desplazados. 

3. Estrategias bayesianas. Estas surgen en los casos en que el segundo 
jugador elige su estrategia al azar, con cierta distribución (conocida o des- 
conocida) en O. 

Para tener la posibilidad de examinar posteriormente las estrategias 
“aleatorias”, vamos a suponer que en O y D están separadas ciertas 
o-álgebras naturales de los subconjuntos 5 y Jp. Entonces, en (O, 7) 
y (D, I) se pueden definir las distribuciones Q y =, respectivamente, así 
que (©, Æ, Q) y (D, %, x) serán los espacios probabilísticos. 

La designación de las distribuciones x y Q induce el espacio probabilís- 
tico (D x O, xo, m X Q), donde Ixo es la o-álgebra engendrada por 
los productos directos de los conjuntos de 55 y Æ. La elección de las o- 
álgebras de 45 y % debe ser tal, que se cumplan las dos condiciones si- 
guientes: 

a) % y F contienen los conjuntos unipuntuales (5) y (0). 

b) La función de pérdidas w(ô, 0) es medible con respecto a %bxe. 

Definición 3. Las distribuciones 7 en (D, %) y Q en (©, %) se llamarán 
estrategias mixtas o randomizadas de los jugadores 1 y II, respectivamente. 

La distribución Q será frecuentemente llamada distribución a priori. 
El sentido de este término debe estar claro de los capítulos 2 y 3. Además, 
lo aclararemos adicionalmente en el párrafo siguiente. Los conjuntos de 
todas las estrategias mixtas de los jugadores 1 y II (o sea, los conjuntos 
de todas las distribuciones en (D, 25) y (O, J) serán designados por D 
y 9. En vista de que % y F contienen conjuntos unipuntuales, entonces 
D y O contendrán las distribuciones concentradas en un punto y, por consi- 
guiente, podemos considerar que D y Ó contienen las estrategias ô y 0 que 
llamaremos estrategias puras, a fin de tener la posibilidad de separarlas. 
El acuerdo, según el cual designaremos con los mismos símbolos ô y 0, 
respectivamente, las distribuciones de D y Ó concentradas en un mismo 
punto ô o ð, no provocará equivocaciones de ningún tipo. 

Ahora, las pérdidas W(x, Q) provocadas por el uso de estrategias mixtas 
serán definidas por la igualdad 


Pla, Q) = Maxow(, D = | w(u, P(N. o 
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Así pues, a la par con el juego inicial podemos examinar el juego, (15, 
6, %) con la función de pérdidas (2), el cual se llama promediación o rando- 
mización del juego (D, O, w). 

Según el acuerdo adoptado escribiremos 

Pro» Q) = H, Q), Mx, Quo) = wir, O), 
m6, 0) = w(, 0), 
si 7) y Qu) son distribuciones concentradas en los puntos ô y 6, respecti- 
vamente. 

Es evidente que la randomización del juego (D, ©, w) significará el 
paso a un juego con conjuntos de estrategias más ricas, respecto al cual 
el par inicial es un juego “insertado” que se obtiene al examinar exclusiva- 
mente las estrategias puras de ambos jugadores. Como veremos más adelan- 
te, los problemas de ordenación de las estrategias en los juegos (D, O, w) 
y (D, ©, ©) se hallan íntimamente ligados. 

Definición 4, La estrategia m = rg, para la cual 


"tro, Q) = inf (x, Q), 
se denomina estrategia bayesiana, correspondiente a la distribución a priori 


Así pues, la estrategia bayesiana no es otra cosa sino la mejor estrategia 
r para Q dada en un juego promediado. 

La estrategia ôo € D, para la cual W(S9, Q) = inf (r, Q), se denomina 
estrategia bayesiana pura. 

Teorema 1, Si para Q dada existe una estrategia bayesiana mixta To, 
entonces también existirá una estrategia bayesiana pura $9 tal, que 

(69, Q) = Piro, Q). 

La demostración es casi evidente. Designemos a = (ro, Q). Está claro 

que 


PO, Q) > inf Hô, Q) > a. 


Si admitimos que W($, Q) > a para todas ô, entonces, realizando la me- 
diación respecto a ô con ayuda de rọ, obtenemos 
a = | (u, Qroldu) > a. 
Esta contradicción demuestra el teorema. < 
Ahota bien, si se alcanza inf W(x, Q), esto también se alcanzará en las 


estrategias puras. 
Si no se alcanza inf *(5, Q), entonces no existirán estrategias bayesianas. 
è 


En este caso resulta útil el concepto de estrategia e-bayesiana que existe 
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siempre y la cual se define como una estrategia ôg para la cual 
wo, Y < inf wô, Q +e 8) 


para e > 0 dado. Sin embargo, en lo sucesivo, para simplificar la exposición 
nos limitaremos a examinar tan sólo los problemas que contienen las estra- 
tegias bayesianas. 

La cuestión acerca de la utilización práctica de las estrategias bayesianas 
es bastante delicada. Si la existencia de la distribución a priori se debe a 
cierto mecanismo físico real, este enfoque será indiscutible. Pero el enfoque 
bayesiano también puede ser justificado en los casos en que el mismo esté 
relacionado con la existencia de ciertas ideas, quizás subjetivas y no siempre 
bastante completas, las cuales, no obstante, no deben ser rechazadas. En 
el apartado siguiente (punto 4) se ofrece un análisis más detallado del asun- 
to relacionado con la utilización del enfoque bayesiano. 

4, Estrategias minimax, Si se carece de una información a priori respec- 
to að, al ordenar las estrategias es posible orientarse hacia la “peor” estrate- 
gia del adversario. Si eligemos la estrategia ô, las pérdidas máximas 
constituirán 


sup w(ô, 0) = woô, 1). 10) 
Esta cantidad sólo depende de ô y, al igual que los valores de w(5, Q), 


permite ordenar & 3 
Definición 5. La estrategia 3 se llama minimax si 


m0, D = inf wG, Da w°. (0) 


El término minimax se forma a base de la unión de las denominaciones 
de las operaciones en el segundo miembro de la relación 


wê, 1) = mín máx w(ô, 0). 


Es evidente que las estrategias minimax, al igual que las bayesianas, 
pueden, hablando en general, no existir. En este caso, de un modo análogo 
a (3), se puede introducir el concepto de estrategia e-minimax. En los plan- 
teamientos ulteriores partiremos del hecho de que en (4) y (5) se alcanzan 
sup e inf. 

En vista de que para cualquier 9 

m8 A <w, 1) =w, 

la estrategia minimax 3 se caracteriza por el hecho de que asegura las pérdi- 
das del jugador 1 en cantidad no mayor de w°. 

Definición 6. Los valores 


w= inf wo Y (w6, 1) = sup w(8, 0), 
w= sup wH, D (wi, D= inf, 0) 
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se llaman, respectivamente, precio superior e inferior del juego. Si w* = w,, 
se dice que existe el precio del juego, igual al valor común de w° y w,. 
De lo dicho anteriormente y de las consideraciones de simetría está claro 
que el jugador II, actuando análogamente al primero y eligiendo su estrate- 
gia Ó de las mismas consideraciones minimax, siempre puede asegurar para 
sí una ganancia no menor de w”. (Tal estrategia Ẹ sería más correcto lla- 
marla estrategia maximin, pero para ella utilizaremos el mismo término: 
estrategia minimax). Por lo tanto, si existe precio del juego, entonces, eli- 
giendo la estrategia minimax ô, aseguraremos para nosotros un resultado 
inmejorable desde el punto de vista siguiente: si el adversario elige Ú, ningu- 
na otra estrategia nos causará pérdidas 9 menores de w, = w". Es evidente 
que 
WE, = w° = w.. 
En el caso general siempre w' > w., ya que para todos ô y 0 
wô, 1) > wô, 0) > wil, 0) y, por consiguiente, 
= inf w(, 1) > sup w(t, 0) = wa. (6) 
Si w” > w., entonces, la estrategia minimax 5 se puede mejorar introdu- 


ciendo las estrategias mixtas. En esto consiste una de las finalidades princi- 
pales de estas últimas, 


Las estrategias minimax para un juego promediado (si ellas existen) las 
designaremos por m y Q, respectivamente, y pongamos 
w = inf sup (r, Q), W= sup inf wW(r, Q). 
. Q - 


Mostremos primeramente que, al promediar el juego, los precios supe- 
rior e inferior de éste se aproximan. 


Teorema 2. w° >" > w, > W, 


La demostración de este teorema, al igual que la del teorema 1, es muy 
fácil. En vista de que la mediación del juego puede realizarse en dos etapas: 
primero por el conjunto D y luego por O, para la demostración es suficiente 
examinar tan sólo la promediación parcial (D, ©, %) del juego (D, ©, w). 
Tenemos 


C2 


inf sup Alr, 0) < inf supw(ô, 0) = w°. 


Como para todos 7, 


Wl, 0) = f w(u, Ox(du) > inf wé, 6) = 0, O), 


entonces, inf W(x, 6) > w(, 0), 
w = supinf W(x, 0) > rn 


La desigualdad w” > w, ha sido demostrada en (6). < 
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El hecho fundamental de la teoría de los juegos consiste en el llamado 
teorema del minimax, el cual afirma que para suposiciones muy amplias, 
los juegos promediados tienen un precio de ° = %,, y para ellos existen 
estrategias minimax. 

Esta afirmación será enunciada más exactamente en el párrafo siguiente, 
en una situación más general, con arreglo a los juegos estadísticos, 

El juego inicial (D, O, w), sobre todo en el caso cuando D y © son 
finitos, por regla general no tiene precio. 

Ejemplo 1. Examinemos un juego elemental cuando los conjuntos D 
y Ə son bipuntuales, D = (5;, 32), O = [6,, 92). Los valores de la función 
de pérdidas w(5, 6) se definen por la matriz 1w(%,, 0,1, /, f = 1, 2, la cual 
supondremos que es igual a [9 $|. Esto corresponde, por ejemplo, al 
juego de adivinación, cuando el jugador I debe adivinar en qué mano el 
jugador II ha escondido una moneda. La adivinación significa una pérdida 
nula (»(51, 91) = Wz, 02) = 0), y el error, una pérdida igual a 1 rublo 
(w(i, 02) = Wên, 01) = 1). Es evidente que aquí wô, 1) = 1, w'=1, 
w(l, 01) = 0, w, = 0, por consiguiente, el juego no tiene precio, y el jugador 
1 no puede garantizar para sí una pérdida inferior a 1 rublo. El propio 
concepto de estrategia minimax aquí es inútil. 

Examinemos ahora la promediación de este juego. Aquí las clases de 
estrategias Ø y O son la población de todas las distribuciones en un conjuto 
bipuntual. Es evidente que cada una de las distribuciones en D y O se 
describe por una probabilidad p y q de elegir las estrategias ô y 61, respecti- 
vamente, Por eso se puede considerar que D = [0, 1], Ó = [0, 1]. Las pérdi- 
das del jugador 1 en este juego son iguales a 


WU, q) = pU — q) + a(l — p) = p + q — 2p9, 

p = (P+1-2p=1-p para 2p<1, 

re 9 lo para 2p>1, 
w = 1/2 


De un modo análogo hallamos que %, = 1/2. Ahora bien, el juego pro- 
mediado ya tiene precio y el primer jugador, eligiendo ô y 62 con probabili- 
dad p = 1 — p = 1/2, puede garantizar para sí una pérdida no mayor de 
1/2. Esta estrategia no puede ser mejorada, ya que el jugador II puede 
garantizar para sí esa misma ganancia, eligiendo q = 1/2. 

Pero si resulta que el juego promediado no tiene precio (lo cual puede 
tener lugar tan sólo en los juegos de estructura compleja especial), enton- 
ces, la promediación reiterada no dará ningunos resultados, ya que esta 
promediación repetida coincidirá, en esencia, con la promediación or- 
dinaria. 
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Los enfoques bayesiano y minimax de la resolución de los problemas 
de juego tienen gran aplicación en la actividad humana cotidiana. El enfo- 
que bayesiano está orientado hacia la existencia de ciertas nociones, aunque 
sean aproximadas, del comportamiento del segundo jugador. El enfoque 
minimax está justificado en los casos en que debemos asegurarnos de una 
gran derrota. 

Ejemplo 2. Un estudiante se prepara pasa el examen. Supongamos que 
no es un estudiante ideal y que no ha tenido tiempo suficiente para repasar 
bien todo el material. Además, el objetivo de este estudiante consiste en 
obtener la mejor nota posible. 

En las condiciones descritas, el estudiante sólo puede estudiar perfecta- 
mente parte del material, Por eso, para él son posibles por lo menos dos 
vías: 1) estudiar en sobresaliente tan sólo las partes que, según la informa- 
ción disponible, el examinador pregunta con más frecuencia; 2) estudiar 
un poco todo el mateiral para asegurarse una nota buena o satisfactoria. 
La primera variante corresponderá al enfoque bayesiano, y la segunda, al 
enfoque minimax. 

Claro está que la estrategia uniformemente óptima aquí sería estudiar 
perfectamente todo el material, pero, según la condición del problema, tal 
estrategia no es posible. 

En las situaciones concretas, las estrategias minimax no siempre son 
racionales. 

Ejemplo 3. Supongamos que © =[0, 1] y que el conjunto 
D = (61, $2) consta de dos elementos. La función de pérdidas se define 
por las relaciones (fig. 9) 

wô 0) = 1, 
wii 0) = 4(1 + DA — 6). 


w = w(8,, 0) 


Fig. 9 


Aquí wô 1) =1, wô 1) =1+e w=1, y ó será la estrategia 
minimax, aunque en caso de e > 0 pequeños, para la “mayoría” de los 
valores de 6, la estrategia 52 será mejor: w(ôz, 6) < 1 para 0 de la región 


RR E u » istribuci 
-4l >3 ire: Para la “mayoría” de las distribuciones Q en 
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8 = [0, 1] (cuya masa no está concentrada en el entorno del punto 
Ø = 1/2), las estrategias bayesianas también coincidirán con ôz- 

Los conceptos de estrategia bayesiana y minimax están relacionados 
entre sí. La siguiente afirmación proporciona el método de averiguación 
de las estrategias minimax con ayuda de las estrategias bayesianas. 

Definición 7. La estrategia w se llama ¡gualadora en el conjunto Oy C O 
si 

D WG, 0) = c = const, 0 € Oo, 

2) W(r, 0) < c para todos 8. A 

Teorema 3. Supongamos que existe la distribución a priori Q y su estra- 
tegia bayesiana correspondiente zz, la cual es igualadora en el portador 
No de la distribución Q. Entonces, F = ng es una estrategia minimax. 

Si N¿= 9, la estrategia igualadora T hace “indiferente” el juego del 
segundo jugador, o sea, lo hace independiente de éste (compárese con el 
ejemplo 1). 

Demostración del teorema 3. Designemos sup W(x, 0) = w(x, 1), 
inf W(8, Q) = W(L, Q). Debemos convencernos de que 


wiag 1) = infit, 1). 


Esto se deduce de las desigualdades siguientes, válidas para cualquier x: 
wlr, 1) > "zx, Q) > "rg, O) = 
= [Pra DOI) = c > Mg, 1). a 
A veces es útil la siguiente pequeña generalización del teorema 3. 
Teorema 3A. Supongamos que existen tales sucesiones Qu, wo, que 
W(r0., Qu) > c. Supongamos, además, que existe una estrategia 7 dotada 


de la propiedad w(x, 0) < c para todos 0. Entonces, * es la estrategia 
minimas. 


La demostración es igualmente fácil: 
Pr, 1) > wlr, Qa) > "ro, Qu) > €- 
Esto puede tener lugar si y sólo si inf W(x, 1) > c. Como c > w(x, 1), el 
teorema queda demostrado. 

La distribución Q en el teorema 3, que define la estrategia minimax 
bayesiana mg, posee una propiedad magnífica: la misma será la peor en 
el sentido de que las pérdidas bayesianas W(xg, q) serán máximas para ella. 

Definición 8. La distribución Q se denomina /a menos favorable o la 
peor, si 


"rg. ©) = sup "Gro, O), 


o, con otras palabras, W(1, Q) = sup W(, Q). 
e 
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Teorema 4. Supongamos que el juego (D, Õ, w) tiene precio y que am- 
bos jugadores tienen estrategias minimax % y Q. Entonces, la distribución 
Q es la peor, y ș es la estrategia bayesiana 7 = mg que responde a Q, 


Observación 1. Del hecho de que, en virtud del teorema 1, a la par con 
wg existe la estrategia bayesiana pura ôg» de ningún modo se deduce que 
esta última también será minimax. 

Observación 2. En virtud del teorema fundamental de los minimax, la 
condición del teorema 4 acerca de la existencia de precio del juego prome- 
diado y de estrategias minimax, no se debe considerar como una limitación 
considerable. 

Necesitaremos la siguiente afirmación auxiliar que enunciaremos en tér- 
minos del juego inicial (no promediado). 

Lema 1. Supongamos que el juego (D, O, w) tiene precio y estrategias 
minimax 5 y 0 de ambos jugadores: 

wE, a inf w, 1), wi, D = sup w(, 0). 


Entonces E x y 
wò, 1) = w, O = wi, O, (0) 
w= ww, 0) = w.. (8) 
_Al contrario, si para ciertos 5, Ẹ se cumple (7), entonces es válida (8), 
y ô O son estrategias minimax. 
Demostración. Para todos ô y 0 tenemos 
w(S, 1) > w(5, 0) > wC, 6). 
De aquí resulta al P E 
w = wê, 1) > wō, Ð > wh, 0) = w. (9) 
Como, según la condición, w" = wa, en (9) todos los signos de desigual- 
dad deben sustituirse por signos de igualdad. Esto demuestra (7) y (8). 
Al contrario, si es válida (7), entonces 
w= inf wô, 1) < wÔ, 1) = wi, D < supw(}, 8) = We. 


En vista de que siempre w° > w., las desigualdades mencionadas significan 
que w° = w, y que las estrategias 3 y 9 son minimax. El lema queda de- 
mostrado. 

El punto ©, 6) que posee la propiedad (7) se llama punto de ensilladura, 
el lema 1 se denomina criterio de existencia del punto de ensilladura de 
las estrategias minimax inmejorables. 

Demostración del teorema 4. Apliquemos el lema 1 al juego prome- 
diado (D, Ó, ©). Entonces obtendremos que 

wr, Q) = wil, Q = w = sup UNOS 
32 
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De aqui se desprende que la distribución Q es la peor y que 7 es la estrategia 
bayesiana correspondiente a O. El teorema queda demostrado. 

El contenido de las afirmaciones citadas anteriormente ahora se puede 
resumir en forma del criterio siguiente, que tiene carácter minimax y que 
describe muy ampliamente la relación entre las estrategias minimax y las 
estrategias bayesianas. 


Teorema 5. Supongamos que el juego (D, ©, w) tiene precio y estrategias 
minimax. Entonces, las tres condiciones siguientes son equivalentes: 

1) La estrategia 7 es minimax. 

2) La estrategia 7 es bayesiana e igualadora. 
_ 3) La estrategia + es bayesiana y corresponde a la peor distribución 
Q: F= rg 

Demostración. La relación 2) = 1) se ha demostrado en el teorema 3 
(para esto no se necesita la condición del teorema 5). La relación 1) = 3) 
se ha establecido en el teorema 4. Necesitamos convencernos de que 
3) = 2), o sea, que la estrategia bayesiana, correspondiente a la peor distri- 
bución, es igualadora. Tenemos 


w = W, Q) = | WE, DON < sup A, 1 = W. 
Esto significa que | WG, pO(dr) = sup wr, 1) y, por consiguiente, 


IG, D = wG, 1) ca. 10). 
En vista de que, además, siempre W7, 1) < WT, 1), entonces 7 es una 
estrategia ingualadora. El teorema queda demostrado. 

Volvamos ahora a la cuestión acerca de la aplicación de las clases exami- 
nadas de estrategias. Supongamos que no podemos destacar la subclase 
de estrategias que nos satisfagan, entre las cuales exista la estrategia unifor- 
memente mejor. Supongamos, seguidamente, que disponemos de ciertas 
nociones acerca del comportamiento del segundo jugador (o sea, de los 
valores estimados de 0) que, sin embargo, no son suficientes para aplicar 
el enfoque bayesiano en su forma pura. En estas condiciones el enfoque 
minimax significará el desprecio de la información que tenemos a nuestra 
disposición. En tal situación se puede utilizar el enfoque intermedio que 
consiste en lo siguiente: 

1) Primero es necesario protegerse contra las altas pérdidas, o sea, exa- 
minar tan sólo las estrategias ô para las cuales w(5, 6) < w° + a con valores 
convenientes de a > 0 y para todos 0. El conjunto de estrategias que satisfa- 
cen esta desigualdad serán designadas por Da. 

2) En este subconjunto (o sea, en el juego (Da, O, w) ya se puede aplicar 
el enfoque bayesiano, utilizando las aproximaciones, accesibles a nosotros, 
para la distribución a priori Q. 
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Tal enfoque mixto se usa también constantemente en la actividad huma- 
na cotidiana. En las condiciones del ejemplo 2 este enfoque significará que 
el estudiante aprenderá muy superficialmente todo el material (para evitar 
una nota insatisfactoria) y luego aprenderá mejor lo que se pregunta con 
más frecuencia, 

La utilización matemática del enfoque mixto debe acompañarse de in- 
vestigaciones de la estabilidad de las pérdidas bayesianas en el juego (Do, 
©, w) para las variaciones admisibles de Q. 

5. Clase completa de estrategias. Si todos los enfoques anteriormente 
descritos no permiten elegir univocamente la estrategia, la solución del 
problema se limite a la descripción de la llamada clase completa de estra- 
tegias. 

Definición 9. La clase de estrategias D° C D se llama completa si para 
todo r ¢D° existe la estrategia xo € D° que es mejor que m. 

La clase Dj se denomina clase completa mínima si Dé es una clase 
completa, pero a condición de que ninguna de sus propias subclases no 
sea una clase completa. 

Con otras palabras, la clase completa mínima se compone únicamente 
de estrategias inmejorables. 

La utilidad de construcción de la clase completa mínima o de la clase 
completa, la cual es mucho menor que D, es evidente, Esto da la posibilidad 
de reducir el juego (D, O, ŵ) al (D°, Ó, ©), el cual puede tener una estructu- 
ra más simple. 

El segundo teorema fundamental de la teoría de los juegos consiste en 
que para amplias suposiciones, la clase de todas las estrategias bayesianas 
fro), Q € Ó, es una clase completa. La enunciación exacta de este teorema 
se dará en el párrafo siguiente. En algunos casos, las clases completas se 
pueden construir también directamente, utilizando la estructura del juego. 
Admitamos, por ejemplo, que existe una partición del espacio D en subcon- 
juntos Do, D = > Dn % Do, cuando bı = bz, tal que en cada uno de 


estos subconjuntos (o sea, para los juegos (Ds, O, w)) existe la estrategia 
uniformemente óptima ó»€ Dj. Está claro que en este caso la clase 
D° = (6v)oen será completa. Tal enfoque de la construcción de la clase 
completa será ilustrado en el $3. 


$3. Juegos estadísticos 


1. Descripción de los juegos estadísticos. Los elementos principales del 
Juego estadístico se forman por la misma terna (D, ©, w) que hemos exami- 
nado en el párrafo precedente. No obstante, se les añade lo siguiente: 
1) En los juegos estadísticos el estadista (investigador) desempeña el pa- 
pel del jugador I, y la naturaleza (más exactamente, la naturaleza del fenó- 
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meno que se investiga), el papel del jugador II. La naturaleza elige (o 
“adivina”) el parámetro (estrategia) 9 que desconocemos y que determina 
el estado del objeto sometido a investigación. La mayoría de los problemas 
de la estadística temática está relacionada, de un modo u atro, con la 
toma de tales decisiones ô que adivinarían lo más precisamente posible este 
6 desconocido. En este caso es necesario tener presente que la naturaleza 
como jugador no tiene por objeto la ganancia máxima (es decir, no intenta 
causarnos las pérdidas máximas) y desde este punto de vista es un jugador 
“imparcial” de la elección de sus propias estrategias. 

2) En los juegos estadísticos tenemos la posibilidad de “explorar” la 
estrategia de la naturaleza con ayuda de los experimentos que nos dan en 
forma de la muestra X € Pe las indicaciones “sugestivas” de cuál debe ser 
el valor de 0. Pues, la muestra X de volumen ” n, procedente de la distribu- 
ción Po que depende de 6, es un elemento del juego estadístico, 

En estas condiciones debemos elegir, evidentemente, nuestra decisión 
ô en dependencia de X. Por consiguiente, ahora llegan a ser estrategias del 
estadista todas las funciones 5(X) que aplican 2” en D. Estas funciones 
ô(X) se llaman funciones de decisión o reglas de decisión. Nos limitaremos 
a examinar sólo las funciones ô(X) que realizan la aplicación medible de 
(2", Bl) en (D, Šo). Designemos por 2 el conjunto de todas estas fun- 
ciones. 

El conjunto de estrategias del jugador II (de la naturaleza) © queda 
el anterior. 

Si hacemos uso de la decisión ô(X), y la naturaleza elige 0, nuestras 
pérdidas constituirán w(ô(X), 0). Es una variable aleatoria. Para evitar esta 
incomodidad, es natural que en calidad de pérdidas para las estrategias 
$=5(:)€2 y 0€8 se tome el valor de la esperanza matemática 

WOL), 6) = Mow), 0) = [WO APoldx), 10) 
que se llama función de riesgo (la aparición de la palabra “riesgo” aquí 
es natural, ya que la aplicación de 5(:) da un resultado aleatorio). Si se 
cumple la condición (4,) acerca de la existencia de la densidad f(x) de 
la distribución Py con respecto a cierto q-finita medida y, entonces la fun- 
ción de riesgo puede escribirse en la forma 


WC), O = | WO), 0) fox)" (dx). 
Ahora podemos dar la siguiente 


* En las construcciones de este párrafo podríamos, sin limitar la generalidad, considerar 
que n = 1. Sin embargo, conservaremos el concepto de muestra de volumen n con el fin de 
dejar válidos los vínculos simples con los resultados de los capítulos precedentes y con las 
consideraciones posteriores ($$ 6—8). 

Una concepción más general de juego estadístico trata de una muestra indefinida 
(Xæ = (Xi, Xz, -»-), en la cual la utilización del elemento x, va acompañada de las pérdidas 
cn > 0 (véase [63)). 
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Definición 1. Se llama juego estadístico la terna (2, O, W), donde O 
es el conjunto de estrategias de la naturaleza, 2 es el conjunto de todas 
las aplicaciones medibles del espacio 2” en el conjunto D, y W ha sido 
definida en (1). Para caracterizar más completamente el juego estadístico, 
junto con la terna (2, ©, W) se puede considerar también dado el par 
(X, Po), donde X € Po. 

Ejemplo 1. Supongamos que 0 € (0, 1] determina el contenido de cierto 
componente químico de la mena preparada para la fusión. Si tomamos 
la decisión de que la porción de este componente es igual a ô # 0, y de 
acuerdo con esta decisión se organiza todo el proceso de fusión, entonces, 
como resultado, la calidad del metal fundido será peor que cuando ô = 8, 
y el consumo de energía será más alto. En otros términos, sufriremos las 
pérdidas w(5, 6) que serán tanto más grandes cuanto más se distinga 3 de 
$. Supongamos, para abreviar, que w(ó, 6) es proporcional al cuadrado de 
desviación de ô de 6: 

m6, 0) = cè — 07. 
(Si la función w(ô, 0) es suave y si se examina el entorno de la recta ô = 0, 
la suposición simplificadora será aquí únicamente la independencia de ¢ 
respecto a 9). Como resultado obtendremos el juego (D, ©, w), en el cual 
D=(0, 1], © =[0, 11, 
fos para $ > 1/2, 
We 00m Èc ya Pd 12, 
w = inf wẹ, 1) = w(1/2, 1) = c/4, 


Ahora bien, la estrategia ô = 1/2 es minimax y garantiza las pérdidas 
<c/4. Como w, = 0, este juego no tiene precio. La randomización del 
juego no mejora la estrategia minimax ô = 1/2 (da W, = ¢/4). Le dejamos 
al lector que él mismo se cerciore de que la estrategia bayesiana ôọ tiene 
aquí la forma ĉo = Mo9 = [10(dt) (esto resulta de las igualdades 
wô, Q) = cMo(5 — 0 = cMo(0 — Mob) + cMo(5 — Mo0)) y que la 
peor distribución Q tendrá la forma Q((0)) = Q((13) = 1/2. Es evidente 
que la estrategia bayesiana correspondiente es ôg = 1/2. 

Supongamos ahora, que la mena es heterogénea y que tenemos la posi- 
bilidad de tomar n pruebas de mineral. Estas prucbas se realizan de modo 
que los resultados de los análisis de laboratorio para el contenido del com- 
ponente mencionado en las pruebas sean aleatorios y nos den los valores 
independientes de (xr, ..., Xa) = X respecto a los cuales se sabe que 
Mx; = 0, Dx; = b/(8). En este caso, como decisiones ô(X) servirán todas 
las estimaciones posibles 9* = X) del parámetro 0 según la muestra X., 
El riesgo de la función de decisión ô(X) será igual a 

W6, 9) = CMX — OY, 
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y llegamos al problema de determinación de la estimación 0” = AX) que 
minimiza en uno u otro sentido este riesgo. Si ponemos, por ejemplo, 
51(X) = X, obtenemos 


wo, =O. o 


El valor máximo de b(0) es igual a 0(1 — 8) y se alcanza en la distribu- 
ción xı concentrada en los puntos 0 y 1. 
Como tal posibilidad se puede excluir, entonces 


b(0) <0(1 — 0) < 1/4, Wêr, 0) < c/4n, 


Ahora bien, incluso en el caso de n = 1 y cuando se utiliza, quizás, no 
la mejor estrategia, obtenemos un resultado que es mejor que para la estra- 
tegia minimax en el juego sin muestra. La relación (2) también indica que 
el riesgo converge hacia el cero cuando n — «o. < 

De la definición dada anteriormente del juego estadístico se deduce que 
este último posee un conjunto mucho más rico de estrategias 2 en compara- 
ción con el juego inicial (D, O, w). 

Al igual que en el $2, a la par con el juego (2, O, W), las estrategias 
del cual llamaremos puras, se pueden examinar juegos randomizados o mix- 
tos (D, ©, W). Aquí el conjunto 4 es el de las aplicaciones de 7(X): 
Zn > D. Estas aplicaciones deben ser tales que los valores 

WO, O) = | wu, Or(X, du) 
b 
sean variables aleatorias; (+(X, A) es la probabilidad del conjunto A C D 
en consonancia con la regla de decisión =). Entonces, por definición, 
ponemos 


Wa), Q = | | |w ai, du)Pddx)QLd). 
osp 

La estrategia (X) se llama regla randomizada de decisión. 

Las relaciones de orden parcial entre las estrategias, las estrategias uni- 
formemente mejores, bayesianas y minimax, y las clases completas para 
los juegos estadísticos se definen exactamente igual que para los juegos 
re (sustituyendo el conjunto D por 2 y las funciones w y %, por 
Wy W). 

Las afirmaciones de los teoremas 2.1—2.5 se extienden por completo 
a los juegos estadísticos, ya que estas afirmaciones de ningún modo están 
relacionadas con la naturaleza del conjunto D. 

2. Clasificación de los juegos estadísticos. Con la naturaleza de los con- 
juntos D y © está vinculada la siguiente clasificación que separa los tipos 
principales de los juegos estadísticos: 
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1) Si © = A, D = A, donde A es un subconjunto “sólido” en R* (por 
ejemplo, un paralelepipedo), w(ż, f) = 0, w(t, u) > 0 para t  u, obtene- 
mos los problemas de la teoría de estimación puntual del parámetro desco- 
nocido 6. 

2) Si los conjuntos © = {f, ..., 0r}, D= (81, ..., &} son finitos y 
contienen un número igual de elementos, w(ô:, 01) = 0, w(ó, 0,) > O para 
i = j, obtenemos los problemas de verificación de un número finito de hi- 
pótesis simples. 

3) Si O es una región “sólida” en R*, D = (8,, 61] se compone de dos 
elementos, w(0, 0) = O para 0€ 01, w(ôz, 8) = O para 0 € O, (91 N Oz es 
un vacío) y w(ó,, 8) > O en los demás casos, llegamos al problema de verifi- 
cación de las hipótesis (0€0,] y 10€ 02). 

Son posibles, desde luego, también otras clases de problemas. Hemos 
destacado estos tres tipos, puesto que han sido examinados en los capítulos 
2 y 3. Además, hemos investigado estos problemas partiendo de posiciones 
puramente “estadísticas”, lo que corresponde a una elección especial de 
las funciones w(ô, 6); en el primer grupo de problemas, las pérdidas se han 
determinado por la desviación estándar, lo que corresponde a la función 
de pérdidas w(5, 6) = (ô — 0)”; en el segundo grupo, las pérdidas se han 
determinado por la probabilidad de equivocarse, lo que corresponde a la 
función 

O i=j, 
PERA De ij. 
Lo mismo se refiere también al tercer grupo de problemas, en el cual hemos 
utilizado la función de pérdidas 


= f0 para 060;, 
wa o= f? para 0€0». 


= (1 para 060. 
wano [o para 0€0»z. 


Llamaremos funciones estadísticas las funciones de pérdidas que corres- 
ponden a un enfoque puramente estadístico de los problemas. 

La clasificación citada muestra que no existe ningúna diferencia de prin- 
cipio entre los problemas de la teoría de estimación y la verificación de 
las hipótesis estadísticas. Todo consiste exclusivamente en la naturaleza de 
los conjuntos O y D y en la forma de las funciones de pérdidas. 

Tomando como ejemplo esta clasificación, se puede señalar una pecu- 
liaridad más de los juegos estadísticos (en adición a los puntos 1 y 2 dados 
al principio de este párrafo); esta peculiaridad consiste en que en los juegos 
estadísticos, el conjunto D ora coincide con © ora es un conjunto más pobre 
que ©. 
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3. Dos teoremas fundamentales de la teoría de los juegos estadísticos. 
Vamos a formular ahora los resultados principales de la teoría de los juegos 
estadísticos. Ya hemos indicado que las afirmaciones de los teoremas 
2.1—2,5 quedan válidas, ya que no están relacionadas con la naturaleza 
de los juegos. Para obtener dos teoremas fundamentales mencionados en 
el $2, introduzcamos ciertas suposiciones. No son, ni mucho menos, las 
suposiciones más generales (de lo contrario, las enunciaciones y demostra- 
ciones se complicarían extraordinariamente), pero son bastante amplias pa- 
ra abarcar el grupo más interesante y sustancial de problemas y, en 
particular, los examinados en los capítulos 2 y 3. 

Condición (A). Cada uno de los conjuntos O y D es finito o es un 
conjunto compacto en R*. 

Como ya hemos señalado, el caso cuando © es finito, y D C R', se 
puede dejar sin examinar. En los demás tres casos vamos a suponer que 
la función de pérdidas w(5, 0) satisface la condición siguiente. 

Condición (B). 

1) Si D C R*, O CR, la función w(5, 6) será continua en D x O. 

2) Si © C R* y D = (6, ..., ©} es finito, cada r de las funciones w(ô;, 
0), i= l, ..., r será continua en O. 

SiO = (0 +9) y D= fô, ... , 6/) son finitas, los valores de w(8,, 
0), i j= 1, ..., r pueden ser arbitrarios. 

Además, exigiremos que se cumpla la 

Condición (C). Disponemos de la muestra X € Ps de la distribución 
Po, absolutamente continua para todos $ respecto a cierta medida o-finita. 


Si © CR", entonces la densidad TO = falx) es continua en Li 
(Z Bas 1) respecto a 0, o sea, para Om —> 8, 
$ Ifon) — foa) l uld) > O. 6) 


No es difícil comprobar que la continuidad ordinaria f(x) respecto a 
0, para [u] ct. x, contribuye a la continuidad (3). 


Teorema 1. Si se cumplen las condiciones (A), (B), (C), el juego prome- 
diado (2, O, W) tiene precio y estrategias minimax ṣ(X) y Q: 


WEO, D= inf Pao, Y, WA, © = sup WO, 0). 


De los teoremas 2.4 y 2.5 del párrafo precedente sabemos que Q es la 
peor distribución, 


Wa), Y = sup Waal), 0) = sup PU, O), 


y (X) = ro(X) es la estrategia bayesiana correspondiente a Ọ. 
Sabemos también (véase el teorema 2.5) que para que la estrategia (X) 
sea minimax, es necesario y suficiente que la misma sea bayesiana: 
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500 = ro(X) para cierta distribución a priori Q, y 
WEO, I = c = const cd IQ], 
WA) Ò <c 


Este último criterio del carácter minimax ya fue utilizado reiteradas veces 
en diferentes situaciones particulares (véanse los §§ 2.11, 3.1, 3.5 y 3.9). 


Teorema 2. Al cumplirse las condiciones (A), (B), (C), la clase de todas 
las estrategias bayesianas será completa. 


En el Suplemento VIII aducimos las demostraciones de los teoremas 
1 y 2 en su forma más general, cuando D y O son espacios métricos com- 
pactos arbitrarios (condición (A)); la función w(ô, 6): D x O ~> R es conti- 
nua respecto a ô y 0 en las métricas respectivas (condición (B)); la 
distribución Po es continua respecto a 9 según la variación (condición (C)). 

Las demostraciones de los teoremas 1 y 2 en caso de ciertas suposiciones 
adicionales, se pueden deducir de [90]. Sin embargo, las demostraciones 
para el caso de D y O finitos se pueden deducir de [7] y [93]. En estas 
mismas monografías es posible hallar una exposición relativamente comple- 
ta de los elementos de la teoría gencral de los juegos estadísticos (y, en 
particular, la investigación para algunos casos de construcción de la clase 
completa mínima; véase [93)). 

Los teorema 1 y 2 muestran cuán importante es el problema de descrip- 
ción de la clase de todas las reglas bayesianas de decisión. El siguiente 
párrafo está dedicado a este problema. 


$ 4. Principio bayesiano. Clase completa de funciones de decisión 


Hemos visto que por su construcción el juego estadístico es un objeto más 
complejo que el juego inicial (D, O, w). Para este juego, sobre todo si se 
trata de los conjuntos simples D y © (por ejemplo, finitos), la determina- 
ción de las estrategias bayesianas y minimax puede ser una tarea relativa- 
mente sencilla. Al mismo tiempo, incluso el conjunto D de los juegos 
estadísticos elementales es de naturaleza muy compleja, y esto puede difi- 
cultar considerablemente el estudio de dichos juegos, siempre que los mis- 
mos se consideren como juegos ordinarios. 

Ejemplo 1. Supongamos que los conjuntos D = (51, &z}, © = (01, 02) 
son bipuntuales, w(5, 0) = wy, wu =0, i, j = 1, 2. Sea Q = (q, 1-9) 
la distribución a priori en ©. Entonces, 

Plên Q) = qwa + (1 — q)wa. 
Por consiguiente, la estrategia bayesiana rọ tiene la forma 
zola) = g si Wên Q< Wn Q (wa> (l -aw) q) 
1, si wêz Q) Hörn Q) (qua < (1 — q) 
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(roli) es la probabilidad de que se acepte ô). 
Si 


Pör Q) = P, Q) a) 
o bien, que es lo mismo, si g = q = Wi2 +(W12 + w21), entonces, en calidad 
de ro se puede tomar cualquier distribución de 7 en el conjunto (51, 52). 
De un modo exactamente igual siempre se puede hallar una distribución 
de ~ = (p, 1 — p) tal, que 

W(x, 01) = W(x, 02), o bien pwa = (1 — p)wzi- 

La solución de esta ecuación p = w21/(121 + wi2) responde, evidentemen- 
te, a la estrategia bayesiana igualadora o, Q — 2), la cual, en vir- 
tud de los teoremas 2.4 y 2.5, será minimax. La distribución Q será la peor. 

Vemos que la “resolución” de este juego se lleva a cabo bastante simple- 
mente. No obstante, si se pasa al juego estadístico, incluso en el caso ele- 
mental de wiz = wn = 1, obtendremos el problema de los criterios 
bayesianos y minimax para cuya investigación hemos necesitado dos párra- 
fos: 3.1 y 3.2, 

Un hecho magnífico, al cual dedicamos el presente párrafo, consiste 
en que el problema de determinación de las estrategias bayesianas (y, por 
lo tanto, de la clase completa y de las estrategias minimax) para los juegos 
estadísticos puede ser reducido, en cierto sentido, al mismo problema para 
los juegos iniciales (D, O, w). Esta reducción se basa en la afirmación si- 
guiente, la cual llamaremos principio bayesiano: Sea, como antes, 


PO = TÍ Ad 


la función de verosimilitud de la muestra X y sea ella misma la densidad 
de X en 2” respecto a y”. Supongamos, además, que la distribución a 
priori Q en (O, fo) tiene una densidad g(r) respecto a cierta medida A 
(es evidente que esto no es una limitación). Entonces, de acuerdo con el 
$2.11, la función f(x, 1) = 4(0S4x) será la densidad de la distribución com- 
patible de (X, 6) en 2” x ©. Esto quiere decir que la función 


atiro = TOAD, 


J= pira. 
define la densidad condicional de la distribución de 9 a condición de que 
X = x. Esta densidad corresponde a la distribución a posteriori Qy de la 
variable aleatoria 9 a condición de que X = x. La relación (3) se denomina 
Fórmula de Bayes (véanse los $52.10 y 2.11). 


Teorema 1 (principio bayesiano). Supongamos que se cumple la condi- 
ción (A,), que la distribución a priori en O tiene una densidad de q(0, 


6) 
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y que Qx, significa la distribución a posteriori de densidad (3), /a cual 
corresponde a la distribución a priori Q. Supongamos, además, que el juego 
inicial (D, O, w) para cualquier distribución a priori Q, tiene la estrategia 
bayesiana xo. Entonces, el juego estadístico (2, O, W) tiene una estrategia 
bayesiana ro(X) correspondiente a la distribución Q, la cual coincide con 
Ton, 0 Sea, con la estrategia bayesiana del juego inicial, correspondiente 
a la distribución a posteriori Qx. 


La afirmación de este teorema se puede expresar por una sola igualdad 
*o(X) = ron. 
Esta reduce el problema planteado, al problema de determinación de la 
distribución a posteriori Qx y al problema de determinación de las estrate- 
gias bayesianas para el juego inicial. 

El teorema 1 es muy importante para comprender el mecanismo de 
influencia de la información obtenida de la muestra, sobre la elección de 
la estrategia óptima. La información a pri representada por la distribu- 
ción Q en O, varía continuamente bajo la influencia de los datos experi- 
mentales. La estrategia óptima será la que tendrá en cuenta estas 
variaciones, del modo siguiente: es necesario tomar la estrategia óptima 
en el juego inicial, pero que ya no corresponde a Q, sino a Qx. 

Demostración del teorema 1. Tenemos 
Wi) Q= G | Mx), DAANAN) = 


èr 


= | ROAD, DIULONAN). W 
e è 


Aqui hemos utilizado (3). El cambio del orden de integración es justo en 
virtud del carácter no negativo de la función subintegral. La segunda in- 
tegral en el segundo miembro (4) no es otra cosa sino A(x), Q:). Pero 
para cualquier x, 


wira), Q:) > ro, Q) = Í Wo, Da +xMd0). 


Sustituyendo esta desigualdad en (4) y volviendo al orden inicial de integra- 
ción, obtenemos 


Wiat), Q)> | Su" (dx) | Pro, Dalt +d) = Wiro, Q). 
ES è 


En vista de que aquí x(x) es arbitraria, esto quiere decir que 
*o(x) = TQ. <a 
Observación 1. Con fines de precisión, en las consideraciones citadas 
debemos especificar la mensurabilidad de la función W(ro,, f) respecto a 
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$” x Fo. Omitimos estas restricciones, ya que éstas tienen un carácter pu- 
ramente técnico y, al cumplirse las condiciones (A), (B) y (C) del § 3, son 
completamente innecesarias. El lector puede comprobar personalmente esta 
última afirmación, utilizando el hecho de que para D y € discretos, tal 
mensurabilidad se establece de un modo evidente, así como el hecho de 
que el juego arbitrario, al cumplirse las condiciones (A) y (B), puede ser 
“aproximado” al juego discreto tan exactamente como se quiera. 

Volviendo al ejemplo 1, ahora podemos, en virtud del teorema 1, señalar 
inmediatamente el tipo de estrategias bayesianas para el juego estadístico 
respectivo. Precisamente de (1) obtenemos 


oX wz 
Ana O i A DAR Wwa F wa’ 
Ed a O) 
O 
si 
n M 
a? © 


entonces, en calidad de rọ, se puede tomar cualquier distribución en (ô1, 
52). La desigualdad (5) se puede escribir de la forma siguiente: 


AO -dD e 
AO aa lT war w o 


Este es el criterio de relación de verosimilitud que ya conocemos, 
Seguidamente, 


Wiro, 8) = wMaro(ê1) + wyMarol:), j= 1, 2. 


Supongamos, para abreviar, que la igualdad (6) tiene lugar con Po, proba- 
bilidad de O, así que la estrategia bayesiana con Po, probabilidad de 1 será 
pura, j = 1, 2. Entonces, 


Morol) = Po (LE > 21 9) 


200 > g= a))' 
Wino, 0) = wPo (A <2), 
Wiro. a) = waPa EN 


De aquí ya no es difícil hallar el valor de q correspondiente a la peor distri- 
bución Q, para el cual xp, será la estrategia igualadora, o sea, la estrategia 
con la que 


Wiro, 01) = Wiro, h). 
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Según los teoremas 2.4 y 2.5, esta estrategia será minimax. Le dejamos al 
lector que él mismo extienda el procedimiento descrito de determinación 
de la estrategia minimax, al caso general cuando Po,- o Po,-distribuciones 
So(X)Y/fo(X) contienen la componente discreta. 

Valiéndonos del teorema 1 podemos, de un modo análogo, obtener la 
generalización de los resultados de los $$ 3.1 y 3.2 para el caso de D y O 
finitos arbitrarios y de una función arbitraria de pérdidas w(3,, 6) = wy, 
la cual en este caso también puede llamarse matriz de pérdidas Iw(5,, 0,)1. 
(En los párrafos $$ 3.1 y 3.2 hemos examinado el caso particular de wy = 1 
cuando j% j). Para wy arbitrarias, la regla bayesiana de decisión tendrá 
la forma siguiente. Sea Q = (q(01), ..., 9(0,)), Q: = (qx(01), ..., ax(9-), 


ODSA) 


y LU 
id POZEI 


Entonces, Wn Qr) = 2) wugx(9) y, por lo tanto, 
=i 


rox(óx) = 1, 
mo, si 


Wör, Qr) < Pör, Qr) para todos i, o bien, que es lo mis- 


É POIO < El WAO). 


Si existen varios valores de k dotados de esta propiedad (designémoslos 
por ki, ... , Kı), entonces, cualquier distribución en ôr, ..., dx, también 
será una estrategia bayesiana Tor. 

La determinación de la estrategia minimax se lleva a cabo del modo 
siguiente. Supongamos, también para abreviar, que Poydistribuciones 
*(8,, Qx) no tienen componentes discretas, Entonces, 


Wiro, 0) = E wP AW Qx) < mín ön Qr)). 
iny ai 


En virtud del teorema 3.1 existe Q = (2(01), ... , 2(0,)) con la que la estrate- 
gia xo igualará los valores de W(ro,, 0;) para todos los valores de j. Esta 
estrategia será precisamente 

De las consideraciones citadas y del teorema 3.2 también es fácil obtener 
el tipo de clase completa de estrategias del juego estadístico (2, O, W) 
en el caso de D y O finitos. 

Examinemos las estrategias o, que son la distribución aleatoria de ta- 
les ör, ..., Ör, para los cuales 


min ( È, 00.1 — WADO) = 0. 
hla 
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La clase de tales estrategias (bayesianas), que se obtienen si q(01, ..., 
4(6,), recorrerán todos los valores posibles y sezán una clase completa. He- 
mos visto que en el caso de r = 2 esta clase resulta muy simple y estrecha 
(véase (7)): consta de las funciones de decisión r(X) = (r(X, 61), MX, 02)), 
donde +(X, ô) son las probabilidades de que se tome la decisión ô, 


1, si RW >c, 

(X, 51) = | pel, 1, si R) =c, 

0 si R(X)<C, 
A 0<c<o, (8) 


En los juegos continuos con conjuntos D y O para algunas funciones 
de pérdidas concretas importantes también es posible hallar la forma explí- 
cita de las decisiones bayesianas. Supongamos, por ejemplo, que D y O 
son las regiones de R*, y que la función de pérdidas es cuadrática; 


k 
wê, 0) = clò -0l =c Y 18-011”, 9) 
da 


donde ô, 6, son las coordenadas ô y 6. Entonces, 

Wê, Q) = c | 18 — tI Qd) = cMolè — 91”, 
Sabemos que el mínimo de esta expresión se alcanza para 
ô = Mp0 = [1Q(d!). Esto es, evidentemente, la estrategia bayesiana 
59 = Mob. De aquí y del principio bayesiano resulta que la estrategia baye- 
siana óg(X) = 04 en el juego estadístico tendrá la forma siguiente: 


0% =80,= | 1Qr(dr) = I talt/ Xdi). (10) 
R 


Este resultado ya fue obtenido en el capítulo 2. 

El riesgo de la estrategia 0% es igual a W(6Q, 6) = cMo 109 - 01% 
distribución a priori Q, para la cual Ms199 — 91? = const, nos Ea 
la estimación minimax 8° = $p(X). Ejemplos de construcción de estima- 
ciones minimax en esta vía se dan en el $2.11. 

La clase de estimaciones (10), donde Q recorre los valores en la clase 
de todas las distribuciones en ©, es una clase completa. 

Examinemos ahora otro caso particular de la función de pérdidas 

w, 6) = clê — 01 an 
y supongamos que © = R, D = R. Entonces, 


w(ô, Q) = cMoló — 81 = 15000 = 
=c 1i (8 — HOQ(dt) +c f (t - Qan). 
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Utilizando la integración por partes y designando F(t) = Q(—oo, £)), 
hallamos 
8 


wê, Q)=c | 6- DAFO) -c | (1 Ddl - Fi) = 
3 


if ” e[ Í roar + j a- roa}. 


La derivada de esta expresión respecto a 5 existe cd. y es igual a 
cI2F(8) — 1]. Esta función crece monótonamente y cambia de signo en el 
punto ô igual a la mediana de la distribución Æ FG -0)< 1/2, 
FẸ + 0) > 1/2. De aquí se deduce que w(5, Q) será convexa en cuanto 
a ô y en el punto 3 tendrá el mínimo valor. 

En virtud del principio bayesiano esto quiere decir que la mediana de 
la distribución a posteriori Qx será la estimación bayesiana 0% = 80(X) 
para la distribución a priori Q y la función de pérdidas (11). Al igual que 
en el caso (9), esto da la posibilidad de hallar la función de decisión mini- 
max y la clase completa. 

De un modo análogo se puede examinar el caso 

wê, 6) =cló- 01%, a>0, 


En conclusión de este párrafo nótese que la función cuadrática de pérdi- 
das (9) en caso de c = 1 para los conjuntos continuales D y O y la función 
de pérdidas 

p, iej, 

ES ES a» 
para D y © finitos desempeñan un papel especial en la teoría de los juegos 
estadísticos. En este caso las funciones de riesgo se convierten en la suma 
de la anza y el cuadrado del desplazamiento de la estimación para D 
y © continuales, así como en la probabilidad de equivocarse para D y O 
finitos, respectivamente. Estas características, que son naturales de por sí, 
nos servían de base para elegir las reglas óptimas en los capítulos 2, 3 y 
4. Si un problema estadístico no contiene indicaciones directas concernien- 
tes a la forma de la función w(ô, 6), entonces con más frecuencia en calidad 
de w(5, 0) se eligen precisamente estas dos funciones: (9) ó (12). Hemos 
decidido llamarlas funciones estadísticas de pérdidas. 


$5. Suficiencia, carácter no desplazado e invariación 


Los principios de suficiencia, de carácter no desplazado y de invariación 
sirven para reducir la clase de reglas de decisión. Los mismos consisten 
en utilizar en calidad de funciones de decisión sólo las reglas de decisión 


33-—8030 
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suficientes, no desplazadas e invariantes, respectivamente. La utilización 
de uno de estos principios, de dos de ellos o de los tres a la vez (si esto 
es posible) permite, en una serie de casos, reducir hasta tal punto la clase 
de estrategias sometidas a examen, que su intersección con la clase completa 
resulta integrada por una sola función de decisión. Esto quiere decir que 
en la subclase separada existe una estrategia uniformemente mejor (compá- 
rese con el punto 1 del $2) y esto resuelve el problema de elección de la 
decisión. 
Los tres principios son bastante naturales y ya han sido analizados en 
distintos casos concretos de los capítulos 2 y 3. 
El más irrefutable de ellos es el principio de suficiencia, que a menudo 
no es otra cosa sino el método de descripción de una clase completa. 
1. Suficiencia. Supongamos que se cumple la condición (44) y que exis- 
te la estadística suficiente S, o sea (véase el $2.12), 
SAX) = WO, SAW. 
Supongamos, además, que la distribución a priori Q tiene una densidad 
q(t) respecto a cierta medida A. Entonces, en virtud del principio bayesiano, 
la estrategia bayesiana será totalmente determinada por la densidad a pos- 
teriori 
GOO awhi, 5) 
Was O pa e 1 
MUA TCO (aau, SAd) id 


que depende exclusivamente de S. Como cualquier distribución Q tiene 
densidad respecto a una medida \ seleccionada respectivamente (se puede 
poner, por ejemplo, A = Q, g(1) = 1), lo dicho significa que todas las reglas 
bayesianas de decisión xo(X) serán sólo funciones de S$: 

ToX) = palS). 
Con otras palabras, cualquier estrategia bayesiana ro(X) no depende de 
X al ser fija S. 

Ahora supongamos que se cumplen las condiciones (A), (B) y (C) del 
$3. Entonces, la afirmación enunciada también atañerá a las estrategias 
minimax. Esto también significará que todas las reglas de decisión cons- 
truidas tan sólo como funciones de S (o sea, todas las aplicaciones medibles 
de $ / D, donde ¢ es el espacio en que se hallan los valores de S), forman 
la clase completa 2, . Esto se deduce del hecho de que 2, contiene todas 
las estrategias bayesianas que forman, como sabemos, la clase completa, 
Evidentemente, la clase 2, será la mínima para la estadística suficiente 
mínima S. 

Está claro que la clase completa mínima no comprende todas las fun- 
ciones de S (con valores en Â), sino tan sólo una parte reducida de las 
mismas. Eso lo confirma la fórmula (1), de la cual resulta, por ejemplo, 
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que para los conjuntos bipuntuales D y © (véase (4.8)), la clase completa 
está formada por funciones (X) cuya probabilidad r(X, ó1) de toma de 
decisión ô, tiene forma de indicador del conjunto (R(X) >c), donde 
R(X) = Hoi, S)/1482, S) (véase, para precisar, (4.8). 

Si DC R*, O CR' y la función de pérdidas w(ô, 6) tiene la forma 
w(5, 6) = w(5 — 8), donde w(u) es una función convexa en R*, al principio 
de suficiencia se le puede conferir una forma muy constructiva que permite 
caracterizar eficientemente la clase completa, o sea, tiene lugar la siguiente 
generalización del teorema 2.14.1. 


Teorema 1 (Blackwell). Para cualquier función de decisión (estimación) 
9" = XX) existe la estimación 
83 = Mo(9"/S) 
(03 no depende de 0, ya que S es una estadística suficiente) la cual no es 
peor que 0”, o sea, para todos ô € 0, 


Mow(03 — 0) < Mow(0” — 0). 


Demostración. Tiene lugar la siguiente desigualdad de Jensen (véase 
el § 2.9): si g es una función convexa en R*; £, una variable aleatoria con 
valores en R*; y $, cualquier o-subálgebra de la o-álgebra principal, en- 
tonces 

M(s(0/8) > g(M(E/Y)). 
Conforme a esta desigualdad, 
Mow(0” — 0) = Mo(Mo(w(0" — 0)/5)) > 

> Mow(Mo(0* — 0/5) = Mow(05 — 0). a 

i la estadística suficiente S es completa, el teorema 1, junto con el 
principio de no desplazamiento, permite determinar univocamente la mejor 
estimación. En efecto, examinemos la clase Ko de todas las estimaciones 
no desplazadas 0* = XX): 

Ms’ =0 para 0”€Ko. 
Entonces, siguiendo exactamente los razonamientos del $ 2.14 (teorema 3), 
nos convencemos de que 03 = Me(9*/S) coinciden para todas 0* € Ko y, por 
consiguiente, la intersección de Ko y de la clase completa se compone de 
una sola estimación (S), la cual es natural llamarla eficiente. 

De lo dicho se deduce que las estimaciones eficientes, si existen, serán 
las mismas para una función convexa arbitraria de pérdidas w(5 — 0). Esto 
permite utilizar, para cualquiera de estas funciones, todas las afirmaciones 
de los teoremas respectivos del capítulo 2, obtenidos para w(u) = u?, 

Los razonamientos citados ilustran la aplicación compatible de los prin- 
cipios de suficiencia y de carácter no desplazado. 


a 
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2. Carácter no desplazado. Acabamos de ver qué papel puede desempe- 
ñar el principio de carácter no desplazado en la teoría de las estimaciones, 
En el $ 3.6 hemos establecido que un efecto análogo (existencia de criterios 
no desplazados uniformemente más potentes) puede obtenerse al utilizar 
los criterios no desplazados en la teoría de verificación de las hipótesis esta- 
dísticas. 

En el caso general, el carácter no desplazado se define del modo siguien- 
te. Admitamos que el problema de una decisión estadística consiste en “de- 
terminar” el valor desconocido de 0 y que, por consiguiente, los conjuntos 
D y € coinciden. La función de pérdidas w(5, 0) puede ser arbitraria. 

Definición 1. La función de decisión ¿(X) se llama no desplazada si 

Mow(S(X), 0) < Mew(5(X), 0”) 
para todos 0, 0” +0. 
Con otras palabras, para v = 0 se alcanza mín Mow(5(X), v). Esto signi- 


fica que ô(X), por término medio, se encuentra más cerca de 6 desconocido 
que de cualquier otro punto. 

Es fácil notar que la definición de las estimaciones no desplazadas que 
hemos dado anteriormente es un caso particular de esta afirmación. 

Si se verifican dos hipótesis compuestas, Hı =([0€01) y 
Ha, = 10€ 02), el conjunto D = (81, 32) puede distinguirse considerable- 
mente de O, En este caso, la definición del carácter no desplazado será 
formalmente algo diferente, aunque su sentido queda invariable, o sea, la 
definición 1 se puede modificar de tal modo (véase [57)) que la misma 
pase a la definición siguiente. 

Definición 1A. La función de decisión ô(X) se llama no desplazada si 


Mow(5(X), 6) < Mow(s(X), 0°) 
para todos 8 € O1, 0” €O2 o bien 06€ O», 0” € 01. 
Supongamos, para abreviar, que w(5,, 6) = w, = const para 0 € O; 
w(S2; 0) = wz = const para 0 € O1; 51 = 0, ô = 1, y que 5(X) significa la 
probabilidad (1 ó 0) de que se acepte Hz. Entonces, 


e [mPAXX) = 1) para 0€0,, 
MUDO (0 para 960, 

1) - [Wi Po(ó(X) = 0) para 0€01, 0’ €02, 
Mew, 0%) oo para 9601, 0'e8, 


y las desigualdades en la definición 1A quieren decir que 


mPa (òX) = 1) < wPo (X) = 0) para 0€01, 
mPa (N = 0) < mPa (X) = 1) para 0€0», 
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o bien, que es lo mismo, 
wi wi 
PO) = DE PAX) =D> F 
De aquí se deduce que 
sup Moó(X) < inf Mos(X) 
1o Ko 


y que, por consiguientè, el criterio ô no será desplazado desde el punto 
de vista de las definiciones del $ 3.6. Al contrario, si es válida la última 
desigualdad, el criterio ô no será desplazado desde el punto de vista de 
la definición 1A al elegir adecuadamente la función de pérdidas w(ô, 6), 
por ejemplo, para w/(w + wz) = sup Mas(X). 


Los ejemplos adicionales de utilización del principio no desplazado 
(además de los resultados obtenidos en el $ 3.6) se pueden hallar en [57]. 

3. luvariación. Hemos visto que la intersección de la clase completa, 
engendrada por las decisiones “suficientes”, con la clase de decisiones no 
desplazadas puede constar de una sola estrategia. La clase de reglas de deci- 
sión invariantes es otra clase natural de estrategias, en la que puede resultar 
la única decisión inmejorable (compárese con los $$2.18, 2.19 y 3.7). 

La definición del problema invariante de decisión estadística está rela- 
cionada con los grupos de transformaciones en los tres espacios que partici- 
pan en la definición del juego estadístico: en los espacios D y O y en el 
espacio muestral 2”, La definición se basa en las transformaciones biuni- 
vocas medibles g del espacio 2” en sí, que forman cierto grupo G con 
la operación de grupo definida como una composición: si gı € G y 82 € G, 
entonces g281 se define como una transformación x —> g2(21x) que otra vez 
debe pertenecer a G. Designemos por e la transformación idéntica. Sin em- 
bargo, la transformación g”' inversa a g se define como una transforma- 
ción para la cual g”'g = e. La mensurabilidad de g € G significa que gX, 
junto con X, será una variable aleatoria en 2”. 

Con el grupo introducido G está estrechamente relacionado el concepto 
de invariación de la familia Po que hemos definido en los $8 2,19 y 3.7. 
Este concepto significa que para g€ G y 0€ O habrá un elemento 0, € O 
tal, que 


Po(gX € A) = Po (X € A). 16) 
_ Las transformaciones Z del espacio © en sí, definidas por la igualdad 
ZO = 9,, al cumplirse la condición (Ao) forman el grupo G (véase el $ 2.19). 

En términos de las esperanzas matemáticas, la condición (2) significa 
que para cualquier función integrable p, 


Mepis X) = MAX). 6) 
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Definición 2. El problema de decisión estadística, relacionado con el 
juego estadístico (2, O, w), (X, Ps), se llama problema invariante respecto 
al grupo G, si la familia Po es invariante respecto a G, y la función de 
pérdidas w es invariante respecto a G en el sentido siguiente: para cuales- 
quiera 3€ D, g€ G existirá el único ô’ € D tal, que 

w(5, 0) = w(5”, 20) para todos 0€0. (4) 

El valor 5”, unívocamente definido respecto a g, lo designaremos por 
8'. 

Lema 1. Las transformaciones g' del espacio D en sí, engendradas por 
el grupo G, forman el grupo G’. 

Demostración. Mostraremos que la población G’ de todas las transfor- 
maciones g” está cerrada respecto a la composición y que además es válida 
la igualdad 8í gí = (2281)". 

En efecto, 

wô, 0) = wigi ò, 810) = w(gi gi ô, 82810) = w((8281)"0, (8280). 
Como (8281) = £281, entonces, en virtud de la unicidad, (2281) = 82 gí . 
El lema queda demostrado. 

Así pues, con el principal grupo G de las transformaciones g del espacio 
Z" en sí, están relacionados otros dos grupos G y G” de transformaciones 
de los espacios O y D en sí. El empleo simultánco de las tres transforma- 
ciones g, g y g’ deja inalterable (invariante) el problema de decisión. Por 
eso es natural elegir tales reglas de decisión que no varíen al pasar de un 
problema de decisión equivalente a otro. En los $$ 2.18, 2.19 y 3.7 ya hemos 
analizado muy detalladamente la naturaleza de tal enfoque. 


Definición 3. La función de decisión $(X) del problema invariante de 
decisión se llama invariante si 


58X) = 2'5X). 

La regla invariante randomizada *(X) se define como cualquier distri- 
bución concentrada en las reglas invariantes de decisión. 

Ejemplos de utilización del principio de invariación se ofrecen en los 
$82.18, 2.19 y 3.7 ya mencionados, donde hemos examinado las estima- 
ciones equivariantes y los criterios invariantes. Es preciso señalar cierta pe- 
culiaridad de estos dos casos particulares desde el punto de vista del 
enfoque general, 

En el problema de estimación, el grupo de transformación G’ no se 
ha introducido en absoluto, En este caso, los conjuntos D y € coinciden, 
y desde el principio se suponía que gô = gô. Por eso hemos definido las 
estimaciones equivariantes con ayuda de la igualdad 0"(2X) = g0°(X). 

En la teoría de verificación de hipótesis se suponía que la transforma- 
ción g’ era igual a la transformación idéntica g’ = e, por lo tanto, el crite- 
rio invariante w podía ser definido por la relación 1(2X) = (A). 
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En este caso, para la invariación del problema de verificación de dos 
hipótesis (0 € 91) y {9 € 0) también es necesario suponer (véase (4)) que 
¿0 = 

Precisamente debido a la existencia de cierta diferencia en estos dos en- 
foques se explica, en cierta medida, la utilización de dos términos diferen- 
tes: “equivariación” (para las estimaciones) e “invariación” (para la 
verificación de hipótesis) para designar las reglas de decisión invariantes. 
Adicionalmente a los ejemplos de problemas invariantes de decisión, exami- 
nados en los capítulos 2 y 3, citaremos uno más. 

Ejemplo 1. Supongamos que X € è.. Aquí O es el semiplano 
(0 = (a, o): o >0). Sea D la recta real R, y sea w(ô, 6) = 

Examinemos el grupo G de transformaciones 2.9 X= 
= (a + DXi, ..., a + Dxn), donde b > O. La variable aleatoria ga, X en 2” 
puede, evidentemente, considerarse como una muestra de Ba pe, pu. Por 
consiguiente, la familia ®, es invariante respecto a G, si se pone 
$020 = (a + ba, 1b10). La función de pérdidas será invariante si ponemos 
ô = a + bò, puesto que 


2 
wind, Fast) = CEDE GDI wea, 0, 


Ahora bien, tenemos un problema invariante de decisión respecto a G. 
Las funciones invariantes de decisión ô(X): 27” + R deben poseer la pro- 
piedad 

$(a + bX) = Kga, bX) = g4.9b(X) = a + bô(X). (5) 

Seguidamente, no es difícil establecer que el problema de decisión some- 
tido a examen también es invariante respecto al grupo F de todas las permu- 
taciones f de las coordenadas del vector X; en este caso, f y f” serán dos 
transformaciones idénticas. Por eso, si exigimos, que la función $(X) tam- 
bién sea una decisión invariante respecto a Æ entonces también debe 
cumplirse 

SUX) = XX). (6) 
Nótese que la clase de funciones que satisfacen (5) y (6) aún es bastante 
amplia: en ella entran, por ejemplo, todas las formas lineales 
D= D ax D =l, 
e e 
donde xa), ... , Xm es la serie variacional de la muestra X. Si utilizamos 
el principio de no desplazamiento, obtendremos una condición más para 
los coeficientes ax: 


= Molz — a) = 0. < 
zi 


520 CAP. 5 ENFOQUE BASADO EN LA TEORÍA DE LOS JUEGOS 


Al construir las decisiones invariantes óptimas en la teoría de estima- 
ción y en la teoría de verificación de las hipótesis estadísticas, desempeñan 
un papel muy importante los conceptos que, en cierto sentido, se asemejan 
uno a otro: el concepto de órbita en la teoría de estimaciones, y el concepto 
de invariante en la teoría de verificación de hipótesis. Recordemos que por 
órbita en el espacio O se entiende el conjunto (Z00, g€ G}, donde 0o es 
cierto punto de ©. Con otras palabras, 6, y 62 pertenecen a una misma 
órbita, si existe Z = C tal, que 01 = 02. 

Análogamente se pueden definir las órbitas en 2”. Entonces son inva- 
riantes, por definición, las estadísticas constantes en las órbitas en 2”. 

El concepto de órbita también conserva su importancia en el caso 
general. 

Lema 2. La función de riesgo del problema invariante de decisión para 
una regla invariante de decisión, es constante en la órbita: 


WC), 0) = WOC), g0) 


para todos 0 ¢ È, E€G. 

Demostración. En virtud de la invariación respectiva de la función de 
pérdidas, de la regla de decisión y de la familia Po (véanse (3) y (4), 
tenemos 
WGC), 0) = Mow(S(X), 0) = Mow(g*5(X), 30) = 

= Mow(ó(gX), 30) = Mgow(S(X), 89) = W(8(-), 30). < 

La constancia en la órbita de riesgo para las reglas de decisión invarian- 
tes randomizadas se deduce de su definición y del lema 2. 

De este último resulta que en el caso de que todo el espacio O sea una 
Órbita (es decir, O = (F00, Z€ G) para cualquier ĝo; esto tiene lugar, por 
ejemplo, para las transformaciones de desplazamiento), la regla invariante 
de decisión será una regla igualadora. Por eso, del lema 2 y de los teoremas 
2,3, 2.5 obtenemos directamente la siguiente afirmación que establece una 
relación importante entre la invariación y el carácter minimax. 


Teorema 2. Supongamos que el espacio © es una órbita y que existe 
una distribución a priori Q para la cual la estrategia bayesiana ro(X) es 
invariante. Entonces ro(X) será una estrategia minimax. 


Del teorema 3.3 se desprende que tiene lugar la siguiente generalización 
del teorema 2. 

Teorema 2A. Supongamos que existe una distribución a priori Q, con- 
centrada en una de las órbitas, tal, que la estrategia Oo bayesiana ro(X) 
es invariante. 


Entonces, si para todos 0, 
Wal), 9) < Wíra(), 8o), Go € Oo, 
entonces ro(X) es minimax. 


Este criterio fue utilizado en el § 3.9. 
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$6. Estimaciones asintóticamente óptimas para 
una función de pérdidas arbitraria 


Muchos de los resultados de las estimaciones asintóticamente óptimas (ca- 
pítulo 2) y de los criterios asintóticamente óptimos (capítulo 3) admiten 
generalizaciones en la función de pérdidas, de forma muy general. 

En este párrafo investigaremos los problemas de la teoría de estimación 
y supondremos que w(ô, 8) = w(5 — 6). 

Hagamos primeramente una observación general. En el capítulo 2 he- 
mos visto que en el caso general (X € Po, Po satisface las condiciones 
(RR); véanse los $$ 2.24 y 2.28), todas las estimaciones racionales 9* = (X) 
del parámetro 6 están “concentradas” en el entorno 1/V7 del punto 8. Así, 
por ejemplo, para las estimaciones asintóticamente normales, 
(0* — 0)Vn € Bo.cxqe)- De aquí se deduce que, para amplias suposiciones 
respecto a la función w(f), el comportamiento asintótico del riesgo 
Mow(0* — 0) será determinado por las propiedades de la función w(t) en 
el entorno del punto f = 0. Si w(f) es dos veces continuamente derivable 
en el cero, w” > 0, entonces, para 10, 


wo = 0 e + oP), o 


Esto significa que en la región de valores de £ (del orden de 1/4) que 
nos interesa, la función w(Y) se comportará igual que la función cuadrática 
de pérdidas wo(1) = cf”, cuando c = w” (0)/2, para la que han sido estable- 
cidos los resultados del capítulo 2. Si, además, w(1) < earl£!”, siendo bas- 
tante pequeño «a > 0 (véase el teorema 2.28.6), todos estos resultados 
mantendrán su validez, ya que su traslado al caso de la función w(f) de 
forma (1), es cuestión de una técnica no complicada, completamente al al- 
cance del lector. 

En este párrafo examinaremos una generalización mucho más sustan- 
cial. Supondremos que la función de pérdidas w(3, 6) dependa de n y que 
la misma es representable en la forma 

weô, 0) = wal — 0) = w(Vn(5 — 0), a 
donde la función w(t) > 0 está definida en todo el espacio R*. Es evidente 
que en este caso serán esenciales los valores de w(t) en toda la región de 
los valores de £. 

Admitiremos que la función w en (2) satisface las condiciones si- 
guientes: 

1) w(t) < e°! para cierto c > 0. 

Tal forma de condición 1) simplifica algo los cálculos. En efecto, todos 
los resultados conservarán su validez si exigimos que w(?) < c¡ealel* cuan- 
do a > 0 es bastante pequeño. 


522 CAP. 3. ENFOQUE BASADO EN LA TEORÍA DE LOS JUEGOS 


Posteriormente desempeñará wa papel muy importante la función 
Lar 
Valo) = | wis - e a, 
donde o? es cierta matriz de segundos momentos, definida positivamente. 
La función V.(s) puede interpretarse como 


in 
Vals) = GEG MS E, ES Boe- 


En vista de que 


r 
Vals) = [muje de, 
esta función será la función analítica de las variables s y o? 

También necesitaremos las condiciones: 

2) La función V,(s) alcanza su valor mínimo respecto a s en un solo 
punto que designaremos por bw. 

3) bw = 0. 

4) La función w(t) es continua. 

La condición 2) se cumplirá a ciencia cierta si w(s) # const es una fun- 
ción convexa hacia abajo. En este caso V.,(s) será, evidentemente, también 
convexa y no contendrá partes “lineales” (o sea, la matriz de segundas deri- 
vadas será por doquier definida positivamente). 

La condición 3) será cumplida si 


- p0- 


-hudut 
VAO = — f uwe” 3" du = 0, 
lo cual siempre tendrá lugar para las funciones simétricas w(u) = w(— 4). 

El valor de by podría llamarse desplazamiento de la función de pérdida 
w. El mismo satisface la ecuación V¿.(bw) = 0. La condición 3) acerca de 
que bw = 0 no es esencial y sólo simplifica la exposición, que el lector tam- 
bién puede extender fácilmente al caso de bw = 0. Las modificaciones que 
en este caso tendrán lugar en los enunciados de los teoremas, serán ilustra- 
das en la observación 2 correspondiente al teorema 1. 

Recordemos ahora en qué se transformarán las definiciones de las estra- 
tegias óptimas expuestas en los $52 y 3. La estimación 9% será bayesiana 
respecto a la distribución a priori Q con densidad q respecto a la medida 
de Lebesgue (y a la función de pérdidas w) si 


| WO, Nada = min fwe, Dade, (0) 


donde W(8”, 1) = Mewa(0" — £). Aquí la integral del segundo miembro (3) 
puede escribirse en forma de la esperanza matemática incondicional 
Mwn(0" — 6), donde la promediación se toma respecto a la distribución 
con densidad f(04(0. 
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La estimación 9* será minimax si para cualquier otra estimación 8°, 
sup WE", t) <supW(0", i). 
i : 


Lo dicho hace naturales las siguientes definiciones que son completa- 
mente análogas a las dadas en el $2.11. 
Definición 1. Llamaremos asintóficamente bayesiana la estimación 0" si 


lim sup [Mw(9” — 0) — Mmwn(0% — 0)] < 0, (4) 


donde 0% es la estimación bayesiana. 
Definición 2. Llamaremos asintóticamente minimax la estimación 0, 
si para cualquier otra estimación 9*, 


lím sup pe weai, t) - sup we, a <0, (5) 


donde Op es cualquier subconjunto cerrado que se encuentra dentro de ©. 

Al estudiar las estimaciones asintóticamente óptimas en este párrafo, 
sólo utilizaremos los conceptos introducidos en las definiciones 1 y 2. Esto 
constituye cierta diferencia del capítulo 2, donde también estaban presentes 
las estimaciones asintóticamente eficientes. Aquí su ausencia se explica por 
el hecho de que para las funciones arbitrarias de pérdidas w no disponemos 
de desigualdades del tipo de Rao — Cramer para ar W(0", 0) (Ko es la 

e 


clase de estimaciones no desplazadas), con ayuda de la cual era posible, 
valiéndose del valor de W(6”, 6), juzgar acerca de la calidad de 0* y destacar, 
en particular, las estimaciones eficientes (y asintóticamente eficientes), o 
sea, las estimaciones uniformemente mejores en la clase Ko. 

Las afirmaciones siguientes establecen que la estimación de verosimili- 
tud máxima es, al igual que en las condiciones del capítulo 2, asintótica- 
mente bayesiana y asintóticamente minimax. Además, obtendremos la 
frontera inferior asintótica para la función de riesgo al ser arbitraria la 
función de pérdidas w (la desigualdad de Rao — Cramer proporciona la 
frontera inferior exacta). En los tres teoremas ulteriores supondremos que 
se cumple la condición (RR). 

Teorema 1. Supongamos que X € Po, 0° es la ey.m,, y que 0% es una 
estimación bayesiana correspondiente a la función de pérdidas w (véase 
(2)) que satisface las condiciones 1) — 3), asf como a la distribución a priori 
Q con una densidad q limitada respecto a la medida de Lebesgue. Entonces 


10% — Iva 20, (6) 


(0% — OVA E tor- (y) 


es uniforme respecto a 0 € Oo; Oo cualquier subconjunto cerrado, situado 
dentro de O, en el que q(6) > go > 0 es continua. 
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Si, además, la función w satisface la condición (4), entonces 


Mw(0% — 0) = Mw V(O — 9)) > Mine) = M PON Vito), 8) 


us)» 9 € Q; M, como antes, designa la esperanza mate- 
nal cuya densidad constituye f(x) q(t) (X € Po, 0 € Q). 

Observación 1. A la par con la convergencia (6) también se puede es- 
tablecer una convergencia casi segura respecto a Po. 

Observación 2. Si w es tal que el desplazamiento b > 0, la afirmación 
del teorema 1 quedará válida por completo, siempre que 9% en (6), (7) y 
(8) se sustituya por 0% — bw/Vn. Ahora bien, bw tiene sentido de desplaza- 
miento asintótico de la magnitud (0% — On. 

Teorema 2. Supongamos que la función w satisface las condiciones 
1)— 4). Entonces, para cualquier estimación 0”, 


lím inf sup Mewa(0" -0> sup Mw(n:), (9) 
m € Por-9- 
Cualquier estimación 0" para la cual 
Mewa(0* — 1) > Mwl) (10) 


uniformemente respecto a t, es asintóticamente minimax. 


Teorema 3. Supongamos que X € Po y que la función w satisface las 
condiciones 1) — 4). Entonces, la estimación de verosimilitud máxima 6" 
es asintóticamente minimax y asintóticamente bayesiana para cualquier 
distribución a priori Q cuya densidad q es continuamente positiva en el 
punto 9. 


Todas estas afirmaciones son absolutamente análogas a las afirma- 
ciones correspondientes del capítulo 2, ya que las mismas contribuyen a 
la verosimilitud de la suposición de que también para la función de pérdidas 
arbitraria w que satisface las condiciones 1) — 4), la ev.m. es la mejor esti- 
mación asintóticamente uniforme en la clase de estimaciones asintótica- 
mente no desplazadas (compárese con los $52.25 y 2.28). 

Demostración del teorema 1. En virtud del principio bayesiano, la esti- 
mación bayesiana se define como el valor 8% que posee la propiedad 


Jron(0% — Dales Xde = mín | walu — glt Xdi = 
wo 


E SE 3 AOS) 
min | walu — 0) — Vat D TOO DR | 


Esto significa que en calidad de (05 — 8)V7 = ug se puede tomar cualquier 
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valor s con el cual se alcanza mín U(s), 


Uts) = [ws — va (Q + +) G) de, am 
129) 


donde, como antes, Z(1) = 


Necesitaremos las afirmaciones acerca del comportamiento asintótico 
de U(s). En los $$ 2.28 y 2.29 hemos establecido (teorema 2.28.5) que, al 
cumplirse las condiciones (RR), 


Ulu") = e NVO) + E(X, O), (12) 
donde en(X, o 0 uniformemente respecto a 0 (aquí hemos sustituido 
kn 
5 MW por Vio» y q) por (6%). 
Nótese ahora que 
Pnl0 = Ô* 1 > £) = Plug — u'i > e) < 
< r( min, Uls) < uw). (3) 
En vista de que tenemos la representación asintótica para U(u*), aquí debe- 


mos estimar el valor de U(s). De los teoremas 2.28.4 y 2.29.3 se deduce 
que para la sucesión arbitraria ô} — 0, cuando lvl < ôV, 


in 2 (5) = Ye) =È (v = uN = YA + ealX, 0, u), 
len(X, 0, u)l < EPX, 9) 7, 0 uniformemente respecto 0. Pero 
v 
Uls) > Uns) © f ws — v)q (e + G dy. 


I-uiesi 
Examinemos el conjunto 


m= hPa, Bua a(0+ $) > acóna - o). 


que posee, evidentemente, la SEPT 
PA) > 1. (14) 
En este conjunto, uniformemente respecto a 8, 
Wl) > (= De x 
x wis — 0) xp {- 3 lo — O — UA + Jas = 
ALLAI 
= 4 Dg ars u) = rA 09) 
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donde, según la condición 1), 


rs) = w(s — v) exp f- 30 = Oo — ur 
toa] 


ma 0? 
x(a +oju<e TON P(ly! > ôa V7), 
n € Poma +o» 


donde d es el diámetro de la región ©. Al igual que en el lema 2.23.1, es 
fácil convencerse de que 
Poly! > VA) < e77", a> 0. 


Eligiendo ô = n” '?, obtenemos que, para todos los valores de s y con 
valores de n bastante grandes, 


rals) K e. (16) 
Ahora utilicemos las condiciones 2) y 3) en virtud de las cuales 


mín — Vies — u’) > Vio (0) + 4r, 7 = xe) > 0. 


EAS 


En virtud de las propiedades analíticas de V,»(s) obtendremos que, para 
valores de y bastante pequeños, 


min Vimarols — u") > Voto) + 37, 


mios 
y en virtud de (15) y (16), para X € A, y para valores de n bastante grandes, 


mín Uns) > (1 — )a(ó e” Vno 0) + 27]. 


in 
E 


Utilizando (12) y (13), definitivamente obtenemos 
Po(Vnl09 — Ó*l > e) < PA ¡mín Un(s) < UWD < 
< PAX¿An) + PAU — DIVIO(O) + 27] < VrO) + en(X, O). 


Eligiendo adicionalmente q, de tal modo que su valor sea tan pequeño 
que contribuya al cumplimiento de (1 — @)27 — Vxce(0) > 7, obtendremos 


P(Val09 — Ó*| > £) < Pa(X $ An) + Polen(X, 0) > 7) >0 


cuando z -> œ, En virtud de (12) y (14), la afirmación (6) queda de- 
mostrada. 


De (6) y de los teoremas del $ 2.29 se desprende (7). Demostremos ahora 
la relación (8). En virtud de (7) y de la propiedad (4), 


w(Vn(8% — 0) = wine), ne E o,r- 
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Según el lema de Fatou, 
lím inf Mpw(/n(97 — 0) > Mwin), 


lím inf Mw Vno — 0)) > | a()Mwindat = Mwin) = Mw(ro). 


Por otro lado, según la definición de 0%, 

Mw(/n(0% — (6) < Mw(Vn(Ó" — 0) > Mwin). 
La última relación se deduce de la convergencia uniforme 
Man (0*—£)) + Mw) demostrada en el $2.29. El teorema queda de- 
mostrado, 

Demostración del teorema 2. Tomemos la distribución Q concentrada 
en Go, con una densidad limitada g(1) > 0 para t € Oo, y sea 09 la estima- 
ción bayesiana correspondiente a Q. Entonces, para cualquier estimación 
0, 
sup Momt0" — 1) > ¿ Mwn(0" — t)q(1)dt > 


> J Miw(09 — Dali)dt = Mwn(0) — 0). 


Según el lema de Fatou, en virtud de (8), 
lim inf sup Mpwa(0* — t) > lím inf Mws(9% — 0) > Mw(no) = 
0. 1a 


me w 


= l Mwda(ddt. 


Como la función Mw(m) = PON Vrp (0) es continua respecto a t, enton- 


ces, eligiendo q(t), podemos conseguir que la integral 
ji VIVi Oq (Ode 
se asemeje tanto como se quiera a sup VO V1co(0) = sup Mw(r). Esto de- 
muestra (9). RE e 
Ahora supongamos que la estimación 8? posee la propiedad (10), y que 

0" es cualquier otra estimación. Entonces, en virtud de (9) y de la convergen- 
cia uniforme (10), 

lim sup [sup Miwa(8i — 1) — sup Mow(9" — 8] < 

persia [e no 


< sup lim M;w,(ôi — £) — sup Muni) = 0. 
nO nmo ns 


La desigualdad (5) de definición del carácter asintóticamente minimax, y 
junto con ella el teorema 2, quedan demostrados. 
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Demostración del teorema 3. El carácter asintóticamente minimax de 
ô" se desprende del hecho de que para la ev.m. 6”, según el teorema 2.29.4, 
es válida (10). 

El carácter asintóticamente bayesiano de 6" se deduce del hecho de que 
para 0” = 6” se cumple (4), ya que para 6" tiene lugar la convergencia uni- 
forme (10) y, por lo tanto, 


lím Mwa(Ô' — 0) = lim [Memn(ó" — O)g(dt = 
= Mw(no) = lím Mwn(02 — 0). 


La última igualdad resulta de (8). El teorema queda demostrado. 

La afirmación del teorema 1 puede ser reforzada si se exige adicional- 
mente que la función w(/) aumente con bastante rapidez. Para esto, desig- 
nemos wy = mi w(t) y Wu = máx w(t) y examinemos la condición 

>N n7 


5) Existe y < 1 tal, que ww > 2W.w para todos los valores de N bastante 
grandes. 

Si cuando |ż1 -» œ, w(r) crece como función potencial o exponencial, 
entonces se cumple la condición 5). 

Teorema 4. Si se cumplen las condiciones 1) y 5) cuando q(t) > qo > 0 
en el conjunto cerrado Oo, y cuando q(f} S qm < », entonces, para ciertos 
valores de c < œ y de œ > 0 que no dependen de t, 

PVR- N> N) Sæ, 1600. 

De aquí y del teorema 1 se deduce que para cualquier función continua 

v(t) tal, que lu(1)! < eN”, es válida 
Mev(Vni(0 — 1) > Mul), tE Oo. 


EOT 


(ésta es la parte de la integral U(0) que se encuentra en la región lul > 7. Para demostrar 
el teorema 4 necesitaremos el 


Designemos 


Lema 1. Si w(£) satisface la condición 1), y qu = máx g(u) < so, entonces, para ciertos 
B>0 y a < «o que no dependen de 0, así como para todos 0 < ô < }, 
Paul) > 8) cF e. 


Esta desigualdad quedará válida para w(1) = 1. 
Demostración. Tenemos 


Pe 3) = al fx 
Wut) > <e (a (52) > 1 + Paulo) > 6, mo, 2 (5) <1). 
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La estimación del primer sumando se da en el teorema 2.23.2, en virtud de la cual este suman- 
do no pasa de cie””*, 8 > 0. El segundo sumando no supera 


P, T aiie Q + +) za 163) dis +) . an 


Como, en virtud del teorema 2.23.1, 


mz G) <en, 9>0, à 


la esperanza matemática de la integral en (17) no superará (véase el lema 2.23.1.) 
A 
tar 
Bor eso, en virtud de la desigualdad de Chébishev, la probabilidad (17) no supera 


cae ™™P/A El lema queda demostrado. 
Designemos por ur el valor de la integral u(r) cuando (0) = 


mir) = MN q (e + E) z & de. 


Lema 2. Si q(6) > 0 en el conjunto cerrado Os, entonces, con cierto b < «o que no 
depende de 0, para cualquer £ > 0 y para todos los valores de n bastante grandes, 


Pe(us(0) < 2) < de”, 0600. 
Demostración. Para todos los valores de n bastante grandes tenemos 


“o> f alo) (za > 


iiei 
at KAUGER - LX, oja- 


=q | a fe Ba) v jem}an 


telar 
donde 


lr 
A negt (X, O, Yn 


Ë= 0+ gon™™?, lel < 1. (Aquí L“ es el vector de las derivadas de la función logarítmica 
de verosimilitud; LG, las derivadas parciales de segundo orden.) En vista de que lv, 
tat < lolita! y como, en virtud de las condiciones (RR), 


. * 
n} i klvl? 
imici w oyl «E Ln 
ma 


tur 


Ling, d 
5 


donde Ly = 2) 1x0, entonces, en el conjunto A = (Ifal < 1/8, La < n/ek) es válida 


a a 
(0) > qo f ap f- tr- e dv > qe f ap (211 ars cs 


te tzet 


34—8030 
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Esto quiere decir que tiene lugar el encaje (u:(0) < cie] C A. Como 


PA) < Pallzal > 07) + (z. > 5) < PMi? + EE Metu 


p 
Melón? = D, 140), Mola = Mel. 
entonces sas 
PĀ) < a. 
El lema queda demostrado. 
Demostración del teorema 4. Designemos por Ma el conjunto de puntos s en los cuales 
se alcanza mín U(s) (o sea, el conjunto de puntos (05 — 0)/n; véase (11)) °. Entonces, 


(M, € D) = Ez U6)< mio Ut). as 
pra 


Por consiguiente, 
{valg — 01 > 2NI = { min U(s)< mín ue) e { min U6) < wo); 
ma wean DEN 


Aqui 
e voam | a(o el.) du O) — a 


tul<N 


wwe mn (su) = mía wO). 
1st>2N in>N 
iui <N 


Seguidamente, 


u n 
U0) = [j Wu) ( + 5) ¿(jas S (uh) — MO) Wir + u(M), 
donde Wu = máx w(0), 
iiM 
De aquí obtenemos 
(Vn109 — 01 > 2N} E (we(u1(0) — M(N) < welus) — uM) + uM) E 
uM) , (Nwy 
20 p mee a), 


En virtud de la condición 5) escojamos M = yN, y < 1 de modo que wa > 2 Wm para todos 
los valores de N bastante grandes. Además, hagamos uso de las desigualdades War > 2 (para 
valores de M bastante grandes) wa < w(N) < e*". Entonces es evidente que 


1Va103 — 01 > 2N) C 1100) < u(yN) + (en). 09) 
En virtud del lema 1 hallamos 


r (uam >i) K laee rart, 


re(n apoco”) PE 


” En vez de M, se podría examinar, por ejemplo, el menor punto (según la norma) en 
el que se alcanza mín U(s). 


4 7. CRITERIOS ESTADÍSTICOS ÓPTIMOS su 


Escogiendo œ <48 obtenemos que, para valores de N bastante grandes, de (19) resulta 


PAVAO — 01 > 2N) < ae- + Polur(0) < e7). 
Sólo nos queda hacer uso del lema 2, en virtud del cual 
Pe(ur(0) < eo) < bea, 
El teorema queda demostrado. 


$7. Criterios estadísticos óptimos para una función 
de pérdidas arbitraria. Criterio de la relación 
de verosimilitud como decisión asintóticamente bayesiana 


1. Propiedades de optimización de los criterios estadísticos para una fun- 
ción de pérdidas arbitraria. En los párrafos precedentes hemos visto que 
muchos resultados principales de la teoría de estimación conservan su vali- 
dez cualitativa al pasar a problemas más generales de la decisión estadística 
con pérdidas w(ô, 6), 5€ D C R*, 0 € © CRY, distintas de las cuadráticas. 

El mismo cuadro se observa también en la teoría de verificación de las 
hipótesis. En el $ 4 hemos visto que las reglas de decisión óptimas para 
los juegos con conjuntos finitos D y © y con función de pérdidas arbitraria, 
tienen la misma forma que los criterios óptimos para verificar un número 
finito de hipótesis simples, examinados en el $ 3.1. Los resultados de los 
$$ 3.5—3.7, 3.9, 3.11, 3.13—3.15 también conservarán, en lo fundamental, 
su validez. En particular, los teoremas de los c.u.m.p., enunciados en los 
$$ 3.5—3.7, se transformarán en afirmaciones de las estrategias uniforme- 
mente mejores en los juegos estadísticos correspondientes (9 C R*, 
D = (6, 62) es bipuntual), en los cuales, sin embargo, la función de pérdi- 
das w(ô:, 0) = wi(0), wi(0) = O para 0 € O;, i = 1, 2 ya no será obligato- 
riamente estadística (w:(9) = 1 para 0 ¢9;), sino que tan sólo satisfará 
ciertas condiciones muy generales (por ejemplo, las propiedades de creci- 
miento monótono de w;(0) al alejarse 0 de O;). El papel de las clases K,, 
en las que hemos buscado los cu.m.p., lo desempeñarán las clases de fun- 
ciones de decisión +(X), con valor máximo fijo e de las “pérdidas de primer 
género”: 


e= sup WC) O= sup w(0)Mex(X, d). o 
Se minimizará el valor de las “pérdidas de segundo género”: 
W(x(), O) = wi(6)Mor(X, 61) para 0€ O2. o 


Aquí x(X, dy) significa la probabilidad de tomar la decisión ô a base del 
criterio x. Para abreviar la notación, pongamos, siguiendo el capítulo 3, 
TX, 52) = (X), así que x(X, 61) = 1 — x(X). La designación del criterio 
y del número x(X, $2) con ayuda de un solo símbolo r(X) es cómoda y, 
como hemos visto antes, no produce equivocaciones. 


340 
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En (1) y (2) se buscan los extremos de las expresiones que se distinguen 
de las expresiones correspondientes para las funciones estadísticas de pérdi- 
das, tan sólo por los factores que no dependen de (1). Si estos factores 
poseen la propiedad natural de monotonía, entonces, al pasar al problema 
definido por (1) y (2), la exposición de los $$ 3.5—3.7, 3.9, 3.11 no variará 
considerablemente. 

De hecho, también variarán poco los resultados de carácter asintótico 
en los $$ 3.13—3.15. En este párrafo examinaremos más detalladamente la 
generalización para el caso de una función de pérdidas arbitraria de los 
resultados del $ 3.13 y nos convenceremos de que esta generalización real- 
mente no exige ningunos esfuerzos adicionales. 

2, Crv, como criterio asintóticamente bayesiano. Examinemos el juego 
estadístico (2, O, W) en el que O es continual y constituye un conjunto 
compacto convexo en R*, mientras que el conjunto D de estrategias del 
estadista es bipuntual: D = (5,, 82). La función de pérdidas w(ô, 0) tiene 
la forma siguiente: 


w:(0), 0%0,, 
-f0=0, 
mo os 
donde 6, es un punto interior fijo de O. Cuando wz = w/(0) = 1 esto 
corresponde al problema de verificación de la hipótesis simple 
Hi = (0 = 01) frente a la alternativa adicional Hz = (0 = 01). 
Para hallar, utilizando el principio bayesiano, la forma de decisión baye- 
siana, examinemos el juego corriente (D, O, w) y supongamos que en O 
se da una distribución Q tal, que q = Q((6:)) > O (planteamiento baye- 


mó, o= fo Ed 


siano completo del problema). Designemos Q2 = —} donde le es 
una distribución degenerada concentrada en el punto 0. Entonces 
Wêr, Q) = (1 — q) | WNUN, Wz, Q) = qwa. 
Esto quiere decir que la estrategia bayesiana rọ(ô:) = 1 si 
0 - q) [minQdr) > qm, 6) 


y Toló1) = 1 si tiene lugar la desigualdad inversa. La relación (3) puede 
escribirse en la forma 


[w(nQlar) > 0, 
donde 
e m() para tb, 
w= Bo para t=. 
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En virtud del principio bayesiano, la regla bayesiana de decisión ro(X) 
tiene la forma ro(X) = 1 si 


[e«gQx(do) > 0, 
donde Q: es la distribución a posteriori. Supongamos que Md?) = dí para 
1% 01, X101)) = 1, y que la distribución Qz tiene una densidad ga(1) res- 
pecto a la medida de Lebesgue. Entonces, la distribución Q tendrá una 
densidad g(r) respecto a à, igual a (1 — g)gx(1) para £= 81, e igual a 
q(t) = q para t = 61. Esto significa que la densidad a posteriori respecto 
a la medida A será igual a 
AOA 
YX) = E 
qu/x) TOO 
X) = | Saadu). 
Por consiguiente, la regla bayesiana de decisión ro(X) tiene la forma 
TX) = 1 si 
0 -= g) | WOO RNdt > wat (X). (4) 
El riesgo de esta regla es igual a 
Wirot), Q) = gqmPo(ro(X) = 1) + 
+ (1 = q) | wi(u)g(u)Pu(rolX) = Odu. 
Comparando estas relaciones con el contenido del $ 3.13, vemos que la re- 
gión (4) de toma de decisión 82 tiene aquí la misma forma que la región 


Ac) en (3.13.3) cuando c = w»9/(1 — q) y cuando la función q(1) en 
(3.13.3) se sustituye por w:(1)g2(1). En otros términos, 
L si ra >c, 
TAX) = IN si rx) =c (5) 
0, si ra(M<c, 
donde 
$ MDI O: 
O tá 
Luego, siguiendo los razonamientos del $ 3.13, a proceder del 
modo siguiente. De la población de reglas bayesianas (5) es necesario, modi- 
ficando el número q, elegir tal decisión ro(X), que tenga un valor fijo 
de “pérdidas de primer género”: 
miPo,(ro(X) = 1) + Po,(ro(X) = Y] = a 
Entonces, entre todas las reglas (X), para las cuales 
a(r) = wMo,r(X) < a, (6) 
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la decisión ro(X) minimizará las “pérdidas de segundo género” iguales a 
tx) = [WORM — TO) du. (Q) 


Esto es la consecuencia directa del carácter bayesiano de la decisión 
ro. La comparación de los valores (6) y (7) con las magnitudes de las proba- 
bilidades de los errores de primero y segundo géneros (3.13.4,) muestra que 
otra vez se trata de distinciones no esenciales, la principal de las cuales 
consiste en que la función q(u) en (3.13.4.) se sustituye por la función 
w(u)q2(u). Los números c y y en (5) se determinan por æ. 

Lo dicho nos permite, siguiendo exactamente los razonamientos del 
$3.13, enunciar las siguientes definiciones y afirmaciones. 

Definición 1. La regla de decisión r(X) pertenece a la clase K, (su ni- 
vel asintótico es 1 — £) si 


lím sup Mo, r(X) < e. 
Esta definición, de hecho, no se diferencia en nada de la definición 
3.13.1. 


Mostremos ahora que, eligiendo q, podemos tratar de que xo € Ř,. 
Pongamos 


ra) = 


[MOROA _ pana ae o, 
fa 

donde 7 = 7(01) es la matriz de información de Fisher en el punto 01. Supon- 

gamos, seguidamente, que se cumplen las condiciones (RR), que 0, es un 


punto interior en ©, y que la función wi(1)-q2(1) es continua y positiva 
en el punto ĝi, 


i (a nee £ (8) 


Entonces, en viritud del lema 3.13.1, para la función pdc)= 
= Pi(ro (X) > c) obtenemos 


Poke) = Po(T(X) > 2) > Ha((2z, 00), 


Por consiguiente, poniendo q = c/(c + wz), donde c está definida en (8), 
z= he/2, h, es una cuantila de orden 1 — e de la distribución x? con k 
grados de libertad, obtenemos 


ton (42%) =: 


y, por lo tanto, ro(X) € Š. 
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Definición 2. Para una distribución a priori dada Q, la regla de decisión 
7X) se llama asintóticamente bayesiana en K, si zo €K., 


lím sup. 


oln) 
=- ala 


o) 

Teorema 1. Supongamos que se cumplen las condiciones (RR) y que 
6: es un punto interior en 0. Entonces, en Ř, existe una regla de decisión 
asintóticamente bayesiana 7(X) que es la misma para cualesquiera distribu- 
ciones Qı y para cualesquiera funciones wi(1) tales, que la función 
wi (Agt) es continua y positiva en el punto 0, y está limitada en O. El 
criterio x es definido por la relación 


ost FED ¿wa 
(X) =l si wo? a (9) 
El teorema se demuestra exactamente igual que el teorema 3.13.1, con 
una precisión de hasta la sustitución de la función g(1) por w(q2(0. El 
teorema 3.13.1 también permite hallar el valor de las “pérdidas de segundo 
género” (véase (7)) del criterio *. 
El criterio (9) no es otra cosa sino el criterio de relación de verosimilitud, 


$8. Soluciones asintóticamente óptimas para una función 
de pérdidas arbitrarias en el caso de hipótesis semejantes 


En este párrafo examinaremos la generalización de los resultados del 
$ 3.14 para el caso de una función de pérdidas arbitrarias. Esta generaliza- 
ción será más sustancial que en el párrafo anterior, ya que las funciones 
de pérdidas dependerán de n (compárese con el $ 6). 

Supongamos que (2, O, W) es un juego estadístico en el que O C R“, 
el conjunto D = (51, ô} es bipuntual y w(ó, 6) = w:(8), donde w1(0) = 0 
cuando ô € ©;, i = 1, 2, y la intersección 0,10, está vacía. 

Si w:(9) = 1 cuando 0 $0, obtendremos el problema de verificación de 
las hipótesis Hi = (0€ 01), ¿=1, 2. 

Determinemos la estrategia bayesiana para el juego (D, O, w). Sean Q; 
las distribuciones en €, 


0=901+920 q+qg=1 
Entonces es evidente que W(%, Q) = [w(DQ(dN y ro(ó) = 1 si 
jma) < fwi DaD, 


o bien 
B |wAQUAN < ej w:(0Qud0). 
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Por consiguiente, en virtud del principio bayesiano, la regla bayesiana 
de decisión To(X) tendrá la forma xp(X) = 1 si 


EOLICO] < [m OQd. (0) 
Supongamos que las distribuciones Q; tienen densidades qu((), i = 1, 


2 respecto a la medida ». Entonces, Q y la distribución a posteriori Qr 
tendrán, respectivamente, densidades g(t) = qıqı() + q2q440) y 


o E, 100 = [armrconas, 
Esto significa que la relación (1) se puede escribir en la forma 


a [monorconeo < al WORX). a) 


El riesgo de la regla bayesiana mọ(X) es igual a 
Wirot), O = w(0)Moro(X) + wU — Moxo(X)), 


Wirot), Q) = [Wiral), DONGO. 


Pasemos ahora a examinar las alternativas semejantes. Sea 0, cualquier 
valor fijo del parámetro 6. Al igual que en el $ 3.14 supondremos que los 
conjuntos ©; tienen la forma siguiente: 


9, = i + Tw/Vn, 6) 


donde T; no depende de n. En lo que se refiere a Q,, supondremos que 
éstas están inducidas por ciertas distribuciones T concentradas en Ty y que 
no dependen de n. Si los conjuntos T; están limitados, entonces, las estrate- 
gias de naturaleza 0 estarán situadas en el 1//n-entorno del punto 01. Por 
eso, si wi (1), w2(f) son continuas y wi(f) > c > 0, į = 1, 2 en los conjuntos 
6» y Oi, respectivamente, entonces, el juego estadístico (2, O, W) para 
tal función de pérdidas no se distinguirá (según sus propiedades) del juego 
cuya función estadística de pérdidas constituye w:(f) = 1 para £ ¢ O; exami- 
nado en los $53.14 y 3.15. 

Aquí examinaremos una generalización más sustancial, análoga a la eje- 
cutada en el $ 6. Supondremos que la función de pérdidas w(ô;, 0) = w(0) 
depende de n de tal modo que 


m0) = Wia) = vilV — 0), 4) 
donde v:(t) son funciones medibles limitadas que no dependen de 7. 


Siguiendo el $ 3.14, llamaremos problema A al problema de búsqueda 
de la solución del juego (2, ©, W), descrito anteriormente, con ayuda de 
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la muestra X € P). Si se cumplen (3) y (4), hablaremos del problema A 
para hipótesis semejantes, con funciones de pérdidas v;(f). 

Examinemos ahora otro juego estadístico (2s, IT, V) referente a la 
muestra V E 9, ,.. de volumen unitario, donde Z = 1(61) es la matriz de 
información de Fisher para la familia Pa en el punto 0. Este juego tiene 
el conjunto bipuntual de soluciones Da = (dı, dz) y el conjunto de estrate- 
gias de naturaleza (conjunto paramétrico) I = P, UT% La función de pér- 
didas v(d, y): Da X T >R se define por las relaciones 


v(d, Y = uly), vt) =0 para yér. 


Ahora bien, en este juego, 2 es la clase de todas las soluciones d(Y): 
V= R* > Ds, 


Vd) Y = 0108, r-a) — di) + vale, r-d) = da) 


(uno de los sumandos del segundo miembro es igual a cero). Análogamente 
se escriben las pérdidas para las estrategias randomizadas x(Y) en los térmi- 
nos Mx(Y), Y € $, ,... Llamaremos problema B al problema enunciado. 

Entre los problemas A y B aquí existe la misma relación que fue estable- 
cida entre estos problemas en el $ 3.14. Sea *(Y) la solución del problema 
B, óptima en uno u otro sentido (bayesiana o minimax). Y sea ĝ” la ev.m. 
en el problema A, y* = (6* — 0:)Vn. Entonces, x(y") será la solución asin- 
tóticamente óptima del problema A (en ese mismo sentido). 

El “criterio límite de optimización” permite reducir el problema A a 
un problema más simple B, 

Para que lo dicho adquiera sentido exacto daremos las definiciones si- 
guientes. Supongamos que en T; se dan las distribuciones Ily. Pongamos 
Ti = q, + gih, qı + 92 = 1 y designemos por Q la distribución en O, 
inducida por la distribución IN y por la transformación 0 = 0, + y/Vn. 

Definición 1. La solución 1,(X) se llama asintóticamente bayesiana si 


Mm sup IVC), Q) = Prol), Q) <0. 


Aquí, al igual que antes, 
WE), D = m(0)Mer(X) + w0) — Mor(X)), 


Wat), D= WC), DQ(0, 


xo es la regla de decisión bayesiana. 
Definición 2. La solución r:(X) se denomina asintóticamente minimax 
si para cualquier otra solución r(X) 


lím [sup sup W(x1(>), 6) — sup W(x(>), 0) < 0. 
naw oci ae 
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Aquí se podría comparar x, sólo con la regla minimax 7 (compárese 
con la definición 1). 

Análogamente al $3.14 también podríamos examinar las soluciones 
asintóticamente bayesianas y minimax en la clase K, de soluciones de las 
“pérdidas de primer género” asintóticas fijas: 


e= límsup sup w:(0)Mox(X). 
no 00, 


Para obtener los resultados respectivos es suficiente comparar el contenido 
de este párrafo con el del $3.14, 

Designemos por mn(Y¥) la solución bayesiana del juego (2p, I, V) (o 
sea, del problema B), la cual corresponde a la distribución a priori 1, y 
supongamos, para abreviar, que los conjuntos T; están limitados. 


Teorema 1. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR), y que las funciones v y la distribución Tl; son tales 
que 0 < fur(u)IIz(du) < «o, O < [vz(u)M: (du) < eo. Entonces, en las desig- 
naciones introducidas, el criterio 

m0) = mr) y'= (C - 0)Vn 


será la solución asintóticamente bayesiana del juego (2, O, W) (o sea, del 
problema A), la cual corresponde a la distribución a priori Q. 


Teorema 2. Supongamos que en el entorno del punto 0, se cumplen 
las condiciones (RR) y que en el problema B existe la solución minimax 
H(Y) y la peor distribución correspondiente YL Entonces, el criterio 
m(X) = n(y") será la solución asintóticamente minimax del problema A. 


Observación 1. Las condiciones del teorema de la existencia de 7 y 1 
en virtud de los teoremas del $ 3, serán cumplidas siempre que v sean fun- 
ciones continuas. 

La demostración del teorema 1 es completamente análoga a la del teore- 
ma 3.14.1, De (2) se deduce que la regla bayesiana de decisión o tendrá 
la forma 1o(X) = 1 si 


OROACONAO - q m 
[OROA B` 

1:00 
EZO 


QONAN = Qidi), Qué: + du/Vn) = T(du), 
wi(h + 4//H) = vilu), 


Poniendo Zi(t) 


y teniendo en cuenta que 
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con ayuda de la sustitución de £ = 0, + u/vVa podemos transformar la desi- 
gualdad (5) reduciéndola a la forma 
Q 


[va (u)Z1{(u/ VAI (di) [Z1(u/Vn)TI£(du) 
= >66 cs%, © 
fat) Zi (uV du) |Z (u/ VN du) Le 
donde las distribuciones generalizadas TI/(4) = [w+ 1(4)Tl(du) (vs(u) = 
4 


= vi(4), į = 1, 2) pueden ser transformadas, mediante renormalización, en 
probabilísticas, introduciendo las transformaciones II/(4) = TI/(4)/M/(T) 
(según las condiciones O < M/(T') < œ). Entonces, en calidad de (5) ob- 
tendremos la desigualdad que tiene exactamente la misma forma que en 
el $3.14, 

Los razonamientos ulteriores de la demostración se distinguen de los 
razonamientos respectivos del $ 3.14 tan sólo por las simplificaciones. Esta 
tarea se la dejamos a cargo del lector, Dichos razonamientos se basan en 
la convergencia uniforme de (6 = 0, + y/Vn) en y: 


Wirot), O= PEO Y Pr, O> Pm), y, m 


donde mı(X) = nly’). < 

Para demostrar el teorema 2 necesitaremos el 

Lema 1. Sea Q la distribución a priori, y xı, la solución asintóticamente 
bayesiana que le corresponde, tal que 


Jmsup Wait) @Q=c, límsup sup Wnt), 0) < e. ® 


Entonces, x, es la solución asintóticamente minimax. 
Demostración. Al igual que antes, designemos por o la solución baye- 
siana. Entonces, para cualquier solución m tenemos 


lim sup sup W(x, ©) > lím sup W(x, Q) > 
> lím sup Wizo, Q) > lim sup Wim, Q) = 
= c > lím sup sup Wim, 0. a 


Demostración del teorema 2, Sea MT la peor distribución en T', de modo 
que (Y) = 1 (Y) sea la regla minimáx de decisión en el juego (2p, T, 
V). Entonces, según el teorema 1, m:(X) = xp(y”) será la solución asintó- 
ticamente bayesiana para la distribución Q que corresponde a II, y para 
demostrar el teorema nos es suficiente convencernos que Q y m satisfacen 
las condiciones del lema 1. Ss 

Designemos por Mn el portador de la distribución TI. Entonces, en vir- 
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tud de los teoremas del $3. 
Viral), =c para yENn, 
sup Viral), VSE (9) 
Pero para 0 = 6, + y/Vn tiene lugar (véase (7)) la convergencia W(ri(-), 


A ERON y) uniforme en y. De aquí y de (9) resulta (8). El teorema 
queda demostrado. 


Suplemento | 


“Teoremas del tipo de Glivenko — Cantelli 


En este Suplemento demostraremos las afirmaciones a base de las cuales se deducirán 
los teoremas 1.4.1. y 1.4.2. Utilizaremos, sin aclaraciones, las designaciones del párrafo 1.4 
en el que estos teoremas han sido enunciados. Primero demostraremos la variante general 
auxiliar del teorema de Glivenko — Canelli. 

Definición 1. Llamaremos aproximable finita (respecto a la distribución P) la clase R 
de conjuntos de B¿-= Y”, si cualquiera que sea z > 0, para éste existe otra clase de conjun- 
tos S(£), constituida por un número finito N = N(e) de elementos Sı, ..., Sw, Sı € Y”, tal 
que para cualquier B € R habrá conjuntos A; y Az de (e) dotados de las propiedades si- 
guientes: 

A¡CBC Az 
PA- Ai) < e. w 


Definamos sobre las clases de conjuntos, las operaciones de adición, de multiplicación 
y de complemento. Denominaremos clases Ri + Ma y RiWz las clases de conjuntos del tipo 
AUB y ANB, respectivamente, donde A € Ni, B € Ra. Llamaremos complemento Fla clase 
de conjuntos formada por los complementos A, A € 9. 

Teorema 1. 1) Supongamos que Xa = (Xala, Xa 
finita. Entonces 


P y que la clase R es aproximable 


sup 1P5(B) — P(B)I == 0. a) 
aek a 
2) La población de clases aproximables finitas está cerrada respecto a las operaciones 
introducidas. 


Demostración. La primera afirmación se obtiene con las mismas consideraciones que 
hemos usado en el caso unidimensional del teorema 1.22, Para los valores dados de B € 9 
ye > 0 existen N = N(*) y conjuntos A1, Az dotados de la propiedad (1). Para ellos tenemos 


P5(8) — P(B) < Pi(A2) — P(A1) < P(A) ~ PLAN) + 2, 
PB) - P(B) > Pi(A:) — P(A) > PI(A1) - P(A) - €. 
Por eso 
x 
MIPAS:) - PES) < e) c Usup IP3(8) — P(B)! < 2e), 
t-i 


donde Si, ...., Sy son los elementos de S(£). Como PACS) = P(S%), de aquí ya sin dificultad 
obtenemos (2) (compárese con la demostración del teorema 1.2.2.A). 
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La segunda afirmación del teorema 3 es casi evidente. Supongamos que tenemos £ > 0 
y que S (e1) y S(t) son las clases aproximantes para R y Rz, respectivamente, Sean, además, 
A y B conjuntos cualesquiera de Ri y de Mz. De las relaciones £ + £ = & 
ACACA» PM- A)<E (A€ Sie) 
BıCBCB, P(B:- B) <e (Bie She) 
obtenemos 
AB C AB C ArBa, 
AB, — AıBı C (Az - A) U (@ — Bı), 
P(428: — A1B:) < €. 


Por lo tanto, la clase R9 es aproximable finita. La suma $; + M2 y el complemento T 
se examinan análogamente. < 
Corolario 1. Sea Z'= R”, Xa = [Xola €F. Entonces, 


sup IF3() — F() > 0 


cuando n ~ co, donde F5(1) es la función empirica de distribución. 

Demostración. De la demostración del teorema 1.2.2A se deduce que las clases de subcon- 
juntos Ry = (y ER”: yy < Y), 00 < y < «o, para cada j = l, ..., m, son clases aproxi- 
mables finitas. En calidad del sistema Se) es suficiente adoptar los semiespacios (3y < 24) 
e y <a), k= 1, ..., N, donde za se han definido en (1.2.6). 

Según la segunda afirmación del teorema 1, la clase de ángulos R = MN... Nm tam- 
bién será aproximable finita. Nos queda hacer uso de la primera afirmación del teorema 1. < 

El corolario 1 no es otra cosa sino el teorema 1.4.1.. 

Examinemos ahora las clases de conjuntos R que satisfacen la condición siguiente (T). 
Sea Ko el cubo 


Ku = (y = Or -s Jm) máx Iyl < M). 


15m 
(T) Todos los conjuntos B € R poseen la siguiente propiedad: el s-entorno Tb de la frontera 
Tp = (BN Kw) tiene medida de Lebesgue (volumen) pT% < ple, M), donde y sólo depen- 
de de sus argumentos, y para cualquier M, p(c, M) — O cuando e = 0. 

Teorema 2. Supongamos que Y = R”, X € P y la distribución P es absolutamente conti- 
nua con respecto a la medida de Lebesgue. Entonces la clase R que satisface la condición 
(T) es aproximable finita y, por consiguiente, para ella es válida (2). 


Demostración, Notemos antes que nada, que el problema cuyo espacio constituye R" 
puede ser reducido al cubo Kas en el sentido siguiente. Supongamos que para cualquier M 
fija hay una clase © de subconjuntos de Kw tal, que para cualquier 8” € R y B = B’ N Kw 
se cumple (1). Entonces X será aproximable finita. En efecto, para e > 0, elegido en (1), halle- 
mos M = M(e) tal, que P(Kw) > 1 ~ z, y pongamos Af = 41, Af = Az U Ki, donde Ai 
es un conjunto de (1), y Ks es el complemento hasta Xu. Entonces es evidente que 

ACB "CAS PA ANS 2e- 


Así pues, podemos considerar que P(Xae) = 1, R consta de los sobconjuntos Kar. 
Examinemos, en calidad de & las figuras A, formadas por distintas uniones de cubos 
cerrados, con aristas de longitud 8 y con los vértices en los puntos 


(hô, o... mô), —M/B< j <M/5, k=1, 
(para abreviar se puede admitir que 3 divide totalmente (M). Definamos los conjuntos A, 
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An, respectivamente, como las uniones de todos los cubos Que pertenecen y rozan con B, 
Es evidente que 
A1CBCA,, 
P(A — A1) < KTP) Epa Vm, M). 

Eligiendo ô, el segundo miembro de esta desigualdad puede hacerse tan pequeño cuanto se 
quiera. 

Seguidamente, P es en absoluto continua respecto a a. Por eso, para e dado se puede 
hallar y = y(2) tal, que sup P(A) < £, Ahora, si ó se elige de tal modo que p(28Vm, M) < 

Hr 

< y, entonces obtendremos 


P- A) <e a 
Corolario 2. La clase © de todos los conjuntos convexos es aproximable finita y, por 
lo tanto, para P absolutamente continuas, 
sup IP3(8) — P(B)1 — 0, 
e 


En efecto, el “área” máxima de la superficie del conjunto convexo en Ka constituye 
2m(2M)""! y equivale al “área” de la superficie Kw: y el volumen máximo KK)" del 
s+entorno de Kw no pasa de 2e-2m(2M)"” '. Esto significa que se cumple la condición (T). < 

El corolario 2 coincide con el teorema 1.4.2, La observación en cuanto a la existencia 
de la condición de continuidad absoluta de P está presente en el $1.4. 

No es difícil notar que la condición (T) también será cumplida para las clases de conjuntos 
no convexos dotados de fronteras bastante suaves. 


Suplemento II 
Teorema funcional del límite para los procesos empíricos 
Aquí demostraremos la afirmación siguiente (teorema 1.6.3). Sea 
WD = VERO — 0) 
el proceso empírico definido en el $ 1.6, y sea w%(1) el puente browníano. 
Teorema 1. SÌ f es una funcional medible: DIO, 1) ~ R, continua en los puntos del espa- 
cio C(O, 1) y en una métrica uniforme, entonces, cuando n = co, 
LW) = 10). 
Para demostrar el teorema necesitaremos dos lemas. 
Lema 1. Las distribuciones de dimensión finita de los procesos w” convergen débilmente 
(cuando n ~ co) hacia las distribuciones respectivas del proceso w°, 
Demostración. Examinemos los vectores aleatorios de dimensión (m + 1), 
w" = (Aow, Anw”), 
donde, al igual que en el $ L6, Ay designa las diferencias 
Ap = 8ye — gU), 
G> i P=0,....M, to=0, ima L 


Designemos por w° el vector análogo para el proceso w"(1). En virtud del segundo teorema 
de continuidad, para demostrar el lema es suficiente mostrar que w” = w°. 
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Hallemos las funciones características w" y w. Para el vector u = (to, . .., Um) tenemos 
Me™" = Map ( $ man) -=Mop f È waw- voa), 


i 
donde A; = 4+1 — tn J = O, ..-, m, w(0 es un proceso wieneriano estándar, 
Representemos el exponente de la exponencial como una suma de magnitudes indepen- 


dientes. Para abreviar designemos $, uA = U, obtendremos 
f 


so 


È waw — mina) = 2) (y — Uaw 
Jo 


Fo 
En vista de que Me™” = e=*%, entonces 


eo iSu- -o i (Èe) o 


Ahora examinemos Me™™”, Sea, al igual que antes (véase el $ 1.6), 


xali) = nF). 
Entonces, como ya sabemos (véase (1.6.1)), 
ngi dle 


Po = ko, 000 Anta = ka) = TET 


En el segundo miembro figuran los términos del desarrollo del polinomio (Ao + ... + Am)". 
Utilizando este argumento obtenemos 


tÈ mam 
mD A E H EAn) 
Como Ayw" = VAFA +1) — Falt) — Aj) = (Arta — nAy)/Va, entonces 


mer = oo (e Pu) meo fo Dr] -ee (Der). 


£ Jao 
De aquí, para u fijo, utilizando las igualdades 


e= 1+ a+ a?/2 + Ola), Inl +a) = a- 0/2 + Ola’), 
cuando a = O(1), hallamos 


In Me™" = ¿UVR + nin [ - > (0 -era - 


Jeo 


- -wā + an [1+ (4-00) a] as 


-3[- Sas e] + 0007" 


quo 
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Comparando con (1), vemos que cuando n — «o, 
E o 
Sólo queda utilizar et teorema de continuidad para las funciones características de las distribu- 
ciones multidimensionales (véase (11), p. 148), < 
Lema 2. Para cualquier s > 0 
lim sup Ples(w") > 2) = 0 6) 


para A — 0, donde wa(y) es el módulo de continuidad de la función y € DIO, 1): wa») = 


= aa y DE — Cl, 


In- aiga 


Demostración. Sin limitar la generalidad, sólo podemos examinar los múmeros binarios 
racionales A = 27', Para m > 1 tenemos 


100) < of + 2 máx o (G ži; 
r ES 
donde 
o= máx ” (2) -x (£)|: 
<a x a”, 
E 


Para demostrar (3) examinemos 


m 
Plos(w") > 3,) < Puf > 0) + P (Uf 


Ł >:)). w 
ea 


Aqui tomemos el primer sumando. Es fácil notar que cuando / > 3 el suceso 


ANT (5 


rei ken 


k- 


provoca (wK < £). En vista de que para los sucesos adicionales tiene Jug 
sa, entonces 


rezo (UU (e (2) -+ "Apa o 


mt 
a 


35—8030 


inclusión inver- 


)) es la frecuencia con que los elementos de la muestra van 
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a parar al intervalo cuya longitud constituye 27”. Con otras palabras, esta es la suma Sr 
de variables aleatorias en el esquema de Bernoulli con z pruebas y con una probabilidad 
del caso 1 igual a p = 27°, Como (véase [11], p. 105) 


MIS, — np) = nO ~ př + 0 — pip“) + Al — DP — pp + te, 
entonces, según la desigualdad del tipo de Chébishev, 


AA Ce 


E (mp + a EE E pa an 
Por consiguiente, el segundo miembro en (5) no supera 


Spg] 


donde c es cierta constante absoluta AA cuando m~o y 


Y) 11271 - 2/27! cuando /— œ }. Poniendo m = 3 logan, obtenemos que 


a 


lim sup Pak > e) < € > 
Eligiendo / (o A), esta expresión puede hacerse tan pequeña como se quiera. 
Ahora apreciemos el segundo sumando en (4), que no supera 


re ( Gt E >e). © 
7 
El suceso que aquí figura bajo el signo de probabilidad significa que, eligido m, en el intervalo 
UK — D/n”, k/n’) cuya anchura es n~’, la desviación de m(Fa(u) — u) respecto a 
M(EH(k/n*) — k/n*) supera Vne. En vista de que Vne > 3, cuando n es bastante grande, para 
esto, en el intervalo ((k — 1)/n”, k/n?) deben caer por lo menos 2 elementos de la muestra 
X, o sea, debe producirse el suceso (S, > 2) si volvemos a utilizar las designaciones para 
el esquema de Bernoulli cuando p = 17”. Pero en vista de que 1 = (I — p + p)" = (1 - 
= p)" + npQ — py"! + O(n"p*), entonces 


AS >= 1- 0- PY npl — py"? = Oln). 
Ahora bien, (6) no supera n*'O(n7*) = O(n~') = O(1). El lema queda demostrado. < 


Demostración del teorema 1. Para cualquier x € D(0, 1) pongamos 
ll = sup Ixl, f= sup fO), fD = inf fO) 


oci boxáe tae 
y designemos por xa la quebrada continua con nudos en los puntos (kA, x(kâ) = xa(kA), 
k=0, ..., I/A, donde A divide por completo 1. Es preciso señalar que 

lx — xal < 0209 o 


y que fë (xa) son funciones continuas del vector (x(0), x(4), x(24), ..., x(1)). En virtud del 
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lema 1 y del segundo teorema de continuidad cuando n= o, 


SE) = SEO). (8) 
Además, de la continuidad de w y de la funcional f se deduce que 
log — wi < ua(w®) + 0 cuando A~ 0, 9 
e 
SEW) AW) cuando e= 0. a0) 
r 


De la definición de fy se desprende que f(y) < fx) en el conjunto ly — xl < e, Por 
eso 


PUW) SA < PUTO) EL Ii — Wi S e) + Pl = wl > £) < 
< PUTI) < À + Plas(w) > 0). 
Pasando aquí al límite para n — œ y utilizando (8) y (9), obtenemos 
lím sup P{W") < 1) < PUZ(E) < f) + lim sup Plus(w) > 6). a) 


Análogamente hallamos 
PUE) < N < PUROS) < N + Phal?) > 2). 
Sustituyamos ahora la última expresión en (11) y pasemos al límite cuando A ~ O. Entonces, 
de (9) y del lema (2) obtenemos que 
sup PW) < A) < PURO) €. 
De aqui y de (10) se deduce que 
lim sup PUW) < 0) < PUW < 9). 


Análogamente se establece la desigualdad inversa 
lim inf P(w") < 1) > PUW) < 1). 


Las desigualdades obtenidas significan, evidentemente, que /(w") = f(w°). < 

Examinemos otro teorema límite funcional para los procesos empíricos, el cual se asemeja 
mucho al teorema 1. 

Supongamos que además de la muestra X de volumen m tenemos una muestra Y de 
volumen nz que no depende de la primera y la cual procede de esa misma disitribución unifor- 
me en (0, 1]. En las condiciones de este apartado nos será más cómodo designar por FXx(1) 
y FO las funciones empíricas de distribución de las muestras X e Y, respectivamente. 
Pongamos 


mm 
m+m 


Teorema 2. Si la funcional f satisface las condiciones del teorema 1, entonces, para 
m= o, ym o 


werti) = (EMO ~ FHD). 


Siwe.) = SW) 
Demostración. Demostremos este teorema utilizando la suposición simplificadora de que 


m 
an 
mm 


=æ 10, 1) 
pee 
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cuando n — co. Tenemos 


mm 
m+m 
donde wx(f) y wy(t) son los procesos empíricos que corresponden a las muestras X e Y. 

Como wa(x + y) < wal) + «230, entonces, de (12) y del lema 2 se deduce inmediata- 

mente el análogo del lema 2 para el proceso wx,y(f): para cualquier e > 0, 
lim sup Pua(wx,y) > £) > 0. 

La convergencia de las distribuciones de dimensión finita wx, y y w° también se desprende 
de (12). En efecto, desígnemos por wx,r, wx, wy los vectores construidos a base de los procesos 
wx,y(0, wei), wri), exactamente igual que como fue construido el vector w” a base del 
proceso w(t). Entonces, utilizando la independencia de X e Y y la demostración del lema 
1, obtenemos 


> MEP e a exp E +U-a) 


wxy(0 = KEX — D — (FHO = D) = Vawxl) + VT= awrl), (12) 


Mere A 


x (È»- v)}-æf-4 (E 15) me 


En lo demás, la demostración del teorema 2 no se distingue en nada de la del teorema 1. < 


Suplemento III 
Propiedades de las esperanzas matemáticas condicionales 


En el $ 2.9 hemos citado las propiedades principales de las e.m.c, Más abajo aducimos 
las demostraciones de estas propiedades que siguen en el mismo orden que en el $2: 

la, M(cẸ/2) = cM(E/9). 

1b. M(E, + E/%) = M/W + M(&/2). 

le. Si h < Es Cs, entonces MÈ) < M(E/9) cs. 

Para demostrar la propiedad la es necesario convencerse, según la definición 2.9.2, de que 

1) cM(¿/9D) es una función A-medible. 

2) M(eM(E/M); A) = MícE, A) para cualquier A € A. 

El cumplimiento de la primera propiedad es evidente. La segunda propiedad se deduce 
de las propiedades de linicalidad de una esperanza matemática ordinaria (o de una integral 


ordinaria): ME; A) = MIME; A) = M(E; A) = Meet; 4). 
La propiedad 1b se demuestra exactamente igual. 
Para demostrar la propiedad lc pongamos, para abreviar, & = M(&/%). Entonces, para 
cualquier A € Y, Y 
JEdP = Mih; A) = Mès 4) < M(Es A) = [EdP, 
2 å 
fÉ - Dar > 0. 


De aqui se deduce que & — f > 0 cs. 
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2. Desigualdad de Chébishev. Si è > 0, x > 0, entonces 


ro >y MED, 


Esta propiedad se desprende de kc, ya que P(Ẹ > x/2 = M(lg>:/%, donde la es el 
indicador del suceso A, y es válida la desigualdad Zeas < £/x. 

3. Si U y o(£) son independientes, entonces M(£/M) = ME. Como É = ME es una función 
Y-medible, sólo nos queda comprobar la segunda condición de definición 2.9.2: para cualquier 
AECA 


MÈ A) = ME; 4). 


La validez de esta igualdad se deduce de la independencia de las variables aleatorias Z4 y 
£ y de las relaciones 


M(E A) = M(EL) = MEMZ, = ÉP(4) = M(É A). 


4. Teorema de convergencia monótona. Si 0 < tE c.s., entonces M(ẹ/W)TM(E/%) c.s. 
En efecto, de Ea,1 > En cs. resulta É., > É cs., donde É, = M(t,/81). Por eso existe una 
U-medible £ tal que ÉstE cs. En virtud del teorema ordinario de convergencia monótona, 
para cualquier A € Y, 


fiae — fiar, for fear. 


En vista de que los primeros miembros de estas relaciones coinciden, también coinciden los 
segundos. Esto precisamente significa que É = M(£/9) 
5. Si y es real y Y es medible, entonces 
MOE/10 = M(E). w 


Si y = Jp (indicador del conjunto B € A), entonces, la afirmación es justa, ya que para cual- 
quier A €X 


[mane/mar = [istaP = | sar= [ ME/OAP = | IaM (EAP. 
3 á wo de 4 


De aquí y de la linealidad de las emc resulta que la afirmación también es válida para 
cualesquiera funciones simples 7. 

Si £ > Oy y > 0, entonces, tomando la sucesión de funciones simples 0 < ty y hacien- 
do uso del teorema de convergencia monótona en la igualdad 


MtmE/0) = mM(8/%, 
obtenemos (1). El paso al caso de E y y arbitrarias se realiza ordinariamente: examinando 
las partes positivas y negativas de las variables aleatorias E y y. En este caso, para que las 


diferencias y sumas obtenidas tengan sentido, es necesario exigir la existencia de MI£l < «o, 
Mit! < œ. 


6. La desigualdad de Cauchy — Buniakovski 
Mh > IMC /MM(S/01'? 
se demuestra exactamente igual que para las esperanzas matemáticas ordinarias (véase, por 


ejemplo, [11)), puesto que la demostración, además de la linealidad, no utiliza otras propieda- 
des de las esperanzas matemáticas. 
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La desigualdad de Jensen 
2ME) < MEM a) 


para cualquier función g convexa hacía abajo se deduce de las siguientes relaciones (compáre- 
se con (11]). En virtud de la convexidad de g(x), para cada y habrá un número g1(») tal, que 


200 < 20) + (* — yda0). 


Pongamos aquí x = £, y = É = M(¿/%) y tomemos la em.c. de ambos miembros de esta des- 
igualdad. Como, en virtud de la propiedad $, 
MIE — Ôe = aÓMIE — E/9) = 0, 
obtenemos (2). 
7. La fórmula de la probabilidad completa se desprende de la propiedad 8 si en calidad 


de %l se adopta la o-álgebra trivial. 
8. Si U C M $, entonces es válida la fórmula de “promediación sucesiva” 


ME/2 = MOM(E/2%4)/%). 
En efecto, para cualquier A € M, en virtud de que A € A, 
[MIME/50/104P = [M(E/210dP = [tar = [M(E/AP. 
A A 2 3 


En conclusión cabe señalar que la propiedad 5 admite, para suposiciones amplias, la 
siguiente generalización. 

SA, Sí ņ es medible respecto a Y, y p(w, n) es la función medible de las variables w € Q 
Y 1ERS, entonces 


Míolo, 1/8) = Hu, n), donde Yo, y) = Mípto, y)/2). a 
'Demostremos esta propiedad suponiendo que existe una sucesión de funciones simples 


Ma tal, que wlw, matol, 1), Ww, matola, n) es. En efecto, supongamos que y, = yk para 
w€ Ay C A. Entonces 


ela, m) = Delo, r)a 
r 


En virtud de la propiedad 5, de aquí se deduce el cumplimiento de (3) para las funciones 
Mn. Queda utilizar el teorema de convergencia monótona (propiedad (4) en la igualdad 


Mielo, m)/2) = Yo, a). 


Suplemento IV 
Teorema de factorización de Neyman — Fisher 


En este apartado demostraremos el teorema 2.12.1. 

Para simplificar las designaciones supondremos, sin limitar la generalización, que n = 1 
{pues la muestra X puede ser multidimensional). Además, en concordancia con el acuerdo 
de que el espacio probabilístico (2; ©) es muestral, escribiremos P+(B) en vez de PAX € B) 
y designaremos por / la dimensión de la estadística S. 

Teorema 1. Supongamos que se cumple la condición (4). La estadística S es suficiente si 
Y sólo si existe la función no negativa YA, s) medible respecto a s € R' y la función no negati- 
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va h(x) medible respecto a x€ 2; tales que 


ar 
10 = T o = HO, SA) cd. bd. 10) 
A la demostración del teorema 1 le antepondremos dos afirmaciones auxiliares. Introduz- 
camos en el planteamiento la 
Condición (D). La familia P = (Po) eco satisface la condición (A) (o sea, es dominada 
por la medida X), donde la medida probabilística » tiene la forma siguiente: 


A= cp 068, a1>0 Past 
T 7 


Teorema 2. La condición (A,) es necesaria y suficiente para el cumplimiento de 
la condición D. 


Demostración. La necesidad es evidente. Demostremos la suficiencia. Sin limitar la generali- 
dad se puede considerar que p es una medida probabilística. En efecto, en vez de y siempre 
se puede introducir la medida 

HAB) 


"(A) = » 
ET 


donde (B,] forma la partición del espacio 2 tal, que a(B) < «o, j = 1, 2, 
Sea Pla clase de todas las medidas probabilísticas de forma P = ZciPe, 0, € O, c > 0, 
Eco = 1. Evidentemente, PC 4 y Ž también satisface la condición (A 
Designemos p = dP/d, y examinemos la clase © de conjuntos C € 1 para los cuales existe 
PES tal, que p0) > 0 cd. en C, P(C) > 0. Sea ci, Ca, --. una sucesión de conjuntos 
de 6 tal, que 


a(Ci) + sup (O). 
ce 


Como Ci € ©, entonces existe P? €F tal, que p? = e > 0 cs. en Ci, Pongamos 


O =UC, P” = Dar” p” = Dap’ 
T T 


para cualesquiera e; > 0, Ee = 1. Es evidente que p% > 0 en Co y, por lo tanto, Co € &. 
La afirmación del teorema quedará demostrada si determinamos que PO(A) = 0 contri- 
buye a que P(4) = O para todas Pe 4H Esto significará la continuidad absoluta de Pa respec- 
to a A = PO y el cumplimiento de la condición (D). 
Así pues, supongamos que POA = 0 y que P es cualquier otro elemento de® Designe- 
mos C = {x} p(x) > 0). La afirmación requerida se deducirá de las tres relaciones siguientes: 
PUG) = 0, PUGO = 0, PAG) = 0, 


donde E significa el complemento de B. La primera de estas relaciones se desprende del hecho 
de que POAC) = 0, PO) > 0 en Co y, por lo tanto, (AC) = O. La segunda relación 
resulta del hecho de que p(x) = 0 en C. Para demostrar la tercera relación admitamos que 
ella es injusta. Entonces, poniendo R = ATC, obtenemos a(R) > 0, „(CoU R) — a(o > 0. 
Pero esto contradice la igualdad 


A(Co) = sup (O), 
Ce 
en vista de que Cp€ 6, REG, QUR €G. < 
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Ahora bien, hemos establecido que, al cumplirse las condiciones (4,), existe una medida 
A para la cual se cumple la condición (D). 


"Teorema 3. La estadística S es suficiente si y sólo sí existe una función medible g(s) 
tal, que 


dPs 


a O = 256) cd. D. a 
Demostración. Para cualquier B C R' medible designemos S”(B) = (x € 2: S(x) € B) € 
€ Bae y examinemos la distribución Ge en R' de la estadística S, inducida por la distribución 


Ps 


dP; 
Gum) = f Po(dx) = f T Md. 


s.m sm 
Examinemos también la distribución 
BR $ xa. 
sm 
Por supuesto que Gr es absolutamente continua respecto a », ya que »(B) = O contribuye 
a que Ga(B) = 0. Por eso existe una densidad ge(s) medible en s, tal, que 


Gob) = | serias). 
H 


Ahora supongamos que $ es una estadística suficiente y, por consiguiente, que existe 
una variante de distribución condicional P(4/5) = Pa(4/S(x) = s) que no depende de 6. Se- 
gún la definición de la distribución convencional, para cualquier Ao € a(S) se cumple 


| PLa/SO0)PAdz) = PaA N Ao). 
PA 
De aquí también se deduce que 


| PADON) = MAN AD). 
pS 


Esto significa que P(4/5) es a la vez una probabilidad condicional respecto a la distribución 
A. Designemos esta probabilidad como emc. Ex(/a/S) del indicador 74. 
De (1), cuando Ao = R', en virtud de las propiedades de la em.c., obtenemos 
PAA) = [PLA/S(o)Po(dx) = MÓP(A/S(X) = 
[Pra/Gutas) = [PLA/Dgns)r(as = [Pra/SODEASCIMAN) = 
= [EX/SODEASOMAN) = JERS SODNA) = 
= JUSO = | Soa. 
A 
Es evidente que esto significa precisamente (2). 


Ahora supongamos que se cumple (2). Demostremos que la em.c. Ex(Z4/5), correspon- 
diente a la distribución A (que no depende de 6), es a la vez la emc. Po(4/5) para todas Py € 2 
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Para A y 0 fijos introduzcamos la medida y en 8, definiéndola por la igualdad 
1O = PAC), CER, 


asi que dy/dPo = la, dy/dh = Lage(SC0). 
Para cualquier C € a(S) tenemos 


WO = | LPi) = Melale = MolcMuda/S) = IS o) 
č é 
Por consiguiente, si y, Ps, A se examinan como distribuciones en a(S), entonces 
A S MaS) 
dre 
ar, 
DE Malta) D = MASB) 
Análogamente, en virtud de (3), en a(S), 
dy 


de Extlag(S/S) = ge(S)En(a/S). 

De aquí se deduce que A casi seguramente (aquí y más adelante, por à y Po entenderemos 
las distribuciones en 0(S)) constituirá 

Ma(la/S)g(S) = Entla/S)g0(5). (4 

Ahora hagamos uso de la propiedad (D), en virtud de la cual el cumplimiento de (4) 
» es, significa el cumplimiento de esta relación por Pe es. Además, Py c.s. es 
ar 
gs) = a 00 

Por consiguiente, Pe c.s. es válida, 

Po(A/5) = Me(la/S) = EXlA/S). 


Esto significa que la magnitud Ex(/a/S5), que no depende de 6, puede ser elegida en calidad 
de probabilidad condiciona! Pa(A/S). < 

Demostración del teorema 1. Si S es una estadística suficiente, entonces (1) se deduce 
del teorema 3, ya que 


dr» an 
LU) = i seso» q, Ch 


donde es preciso suponer que ge(s) = ¥(8, s), 2 (x) = h(x). Al contrario, si (1) es válida, 
entonces a 
Á de», 
=e. — = UA jho) = je 
5 Na > DJ ewon sonno = ISC 
Por eso, si r(S(9) > 0, entonces 
EE dy _ W0, SW) 


a da rs) 
Sir(S(x)) = 0, entonces, z (x) se puede definir arbitrariamente, ya que A-medida y, por con- 


siguiente, Pemedida del conjunto de tales puntos x es igual a cero. Poniendo ge(s) = Y(S, 
3/r(s) y aplicando el teorema 3 obtenemos que S es una estadística suficiente, < 
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Suplemento V 


Ley de los grandes números y teorema central del límite. 
Variantes uniformes 


1. Ley de los grandes números en el esquema de series. Examinemos las sucesiones 
Léralh us 7 = 1,2, ...., de vectores igualmente distribuidos en el esquema de series (la distri- 
bución $e depende de n) y supongamos que Mft., = 0. 


Designemos $ = $) Er 
a 


Teoremo 1. Sea 
nMliral = aa < a < 0, 
aMUléral; Igral > 1) O 0 
cuando n => œ para cualquier r > 0. Entonces, para cualquier € > 0, 
Polpa! > 2) — 0. 
Demostración, Examinemos los cortes ý,„ de tas variables aleatorias £x, en el nivel 7: 


gaa (Em S liln 
mia a ilr 


En virtud de la condición (1) 
Pla 7 En) = PCat > 7) < Miltal; gsal > 1) = 0(/n), MEín = O(/n), 
Mi = Mithi lial <) < 
< Miliai lëial < 7) = rann — MCG, 
Por eso, para cualquier e > 0 y para valores bastante grandes de n, 
Mí? < 2a1/n, DẸi.n < 2ar/n, nMi. < 6/2. 


Pongamos $4= 2) En» Entonces, si los valores de n son bastante grandes, 
a 


Pipl >P Ù ae) + PGI > 6). 
Ki 


Aquí, el primer sumando no supera nP(¢{,a »* £,,») = 0(1), y el segundo no pasa de 
PUR- Mgl > 2/2) < 4DF4/e* < 8ar/ 


Como 7 es arbitrario, para cualquier ¿ > O dado, el valor obtenido puede hacerse tan 
pequeño como se quiera. Eligiendo ahora un valor de n bastante grande, también podemos 
hacer tan pequeña como se quiera toda la probabilidad P(l$xl > £). < 


2. Teorema central del límite en el esquema de series. Aquí supondremos que 
Méjs = 0, Mlgjal? < ©. 


Designemos 07 = nMë atım, fa = $ Ea 
A 
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Teorema 2. Supongamos que se cumplen las condiciones de Lindeberg 
AM; leal > 9—0 
para n + œ para cualquier 7 > 0. Entonces, si al = a”, 
En E Pons 
Corolario 1 (teorema central ordinario del límite). Si £u, E», .... es una sucesión de vecto» 
res independientes igualmente distribuidos, Mx = 0, 0? = Mff < œ, sq = $ Ex, enton- 
AS a 
Zens 


vn 


Esta afirmación es el corolario del teorema 2, ya que las variables aleatorias £x,n = E/VA 
satisfacen las condiciones del mismo, 
Demostración del teorema 2. Examinemos las funciones características 


Val) = Me, lo) = MeT? = yan. 
Para demostrar el teorema necesitamos convencernos que para cualquier £ 


ento ep {- 3 we) 
cuando n + +00, 


Hagamos uso de la variante unidimensional del teorema 1, demostrada en (11). Las fun- 
ciones Yali) y pn(1) pueden considerarse como funciones características 


W) Mea y lo) Met 
de las variables aleatorias Efn = (im, 0), FY = (Pa, «), donde w = 1/11, v = Itl. 


Mostremos que las variables aleatorias escalares Ef. satisfacen las condiciones del teore- 
ma 1 para el caso unidimensional, Es evidente que 


Mën = 0, MEL = nMi m u)? = woo? = wat", 

El cumplimiento de la condición de Lindeberg se deduce de la desigualdad evidente 
Mrs a; Ms a)l > 7) MEL gial > Do 

Ahora bien, para cualesquiera v y w (o sea, para cualesquiera 1) 


nome [2000] «o -pea a 


3, Teoremas uniformes del límite para las sumas de las variables aleatorias que dependen 
del parámetro. En este apartado demostraremos los teoremas 29.1 y 29.2. 
Sea X € Po y a(x, 6) una función medible 2x O = R’ dada, 


56) = 2 alí, O. 
“A 


Diremos que la integral a(0) = fa(x, 9)Pa(dx) converge uniformemente en 0 en la región 
ecos 


sup f ia% DIPLd) = 0 
O zin 
cuando N =e. 


556 SUPLEMENTO V 


“Teorema 3. (ley uniforme de los grandes números). Si la integral a(8) = falx, OPeldx) 
converge uniformemente en 9 en la región Oo C O, entonces 


suo) = 20 a) 0 o 
n 7 
uniformementne respecto a 8 € Oo. 


Demostración. Supongamos que (2) no tiene lugar. Entonces habrá £ > 0, $ > 0 y una 
sucesión 0, € So tales, que 


dl 


> :) >ö 8) 


para todos n. 
Examinemos las variables aleatorias 
ng, 0) — al 
Y 2 —. 
n 


No es difícil notar que éstas satisfacen las condiciones del teorema 1. En efecto, pongamos 
An = (x; la(x, 9) = a(ds)1 > mn). Entonces 


nMi, ljal < 2a = 25up [la(x, OlP (do < o, 
KO 


aMelEial; Ial >) = | lal, 9) — alónIPo,(d) — 0. 
sA 


La última relación se deduce de la convergencia uniforme de la integral a(0) y de la desi- 
gualdad de Chébishev 
Malgra! 2a 


PaA) c —— 0, 
r m 


Lo dicho significa que la sucesión £,» satisface la ley de los grandes números: 
Po. ( Y ba] > :) -0 


a 
para cualquier e > 0. Esto contradice (3) y demuestra el teorema. < 
Pasemos al teorema central del límite. Sea Msa(x;, 6) = 0. 
Pongamos o°(0) = lay(6)1 = Mea"(x,, Oa(x,, 5) y designemos por a(x, 6), J=l,... 
+» l las coordenadas de los vectores a(x, 6). 
Teorema 4 (Teorema central uniforme del limite). Supongamos que las integrales 
Mbajíx,, 5) convergen uniformemente en OCO, o sea, 


sup 048) < «o 
E 


onto 


sup Mata, yt, 0)! > M0 


cuando N ~> œ. Entonces 


Sa) 
ma o 10) 


cuando n — œ uniformemente respecto a 0 € Oo. 
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Demostración. El incumplimiento de (5) significará la existencia de una sucesión 6, € Oo para 
la cual las sumas de las variables aleatorias En = ay, 9)/4n no se aproximarán, según la 
distribución, a Pongo: 


En virtud de la compactibilidad de la clausura (0*(6), 6 € Oo), la sucesión 9, puede consi- 
derarse elegida de tal modo que, para cierta matriz o°, 


20) = nM, ET akn n = 0%. © 


Entonces, nuestra suposición acerca del incumplimiento de (5) significará que $) Ẹja 


=i 
no se aproximará, según la distribución, a 9, „r. Pero esto es imposible en virtud del icorema 
2, ya que £y.n satisfacen las condiciones del referido teorema. En efecto, en virtud de (6) es 
suficiente verificar la condición de Lindeberg. Para los conjuntos Aj = (la/s, 091 > 
> rín/l) hallamos 


Lon) 
sue Palin) < sup ir O 


i 
cuando n -+0o, Utilizando el hecho de que |li! > 7} C UU Arn, obtenemos 
Ds 
i 
MMs (tial; Iial >) < 2) Molak, b)i Ara). (o) 


Toi] 


Aquí Ms, (aÑ Xi, 8a); Arn) ~O en virtud de la convergencia uniforme de la integral ou(9). 
Si ¡ æ k, entonces, poniendo Bıy = (lay(xi, 04)! > N), obtenemos 


Melah Ara) = Molah Ar nB) + Molah ArnBi n). 


Aquí, para é > 0 dado se puede escoger N de tal modo que el primer sumando, en virtud 
de (4), sea menor que e. El segundo sumando no supera N°Pe,(Ax,a) — 0 cuando n — c, 
Esto significa que (7) converge a cero cuando n — eo. 


Suplemento VI 


Algunas afirmaciones referentes a las integrales que dependen 
del parámetro 


1. Teoremas de la convergencia de las integrales que dependen del parámetro. Sea (YX, 
>) una familia de funciones medibles que se dan en el espacio medible (2 8) con la medi- 
da y en el. Nos interesarán las condiciones en las que 


[ya pocas) — JU, pray) cuando r= o. Mm 


Sea [4(1) = A(t, 9, £ € O) cierta familia de conjuntos Ba. Designemos por Zago(%) el 
indicador A(0, y por A(1), el complemento para A(0. 

La siguiente afirmación es cierta generalización del teorema conocido de Lebesgue. 
Teorema 1. Supongamos que la familia (A(0)) es tal, que 

1) Y, Yao) > VO), cuando 1 — 0 para c£1»] valores de y, para los cuales Y48, 
»»0. 


558 SUPLEMENTO VI 


2) suply, Ma0) < VO), donde y es la función integrable 
r 


froid) < æ. 
Entonces, para que se cumpla (1) es necesario y suficiente que 
JH zea) =O cuando £=0. o 


Demostración. En virtud del teorema de Lebesgue, 
fr, Nord) — (WS, parta). 
En vista de que 
fy = fun + fiin 
(1) es equivalente a (2). < 


Si existe fW(0, y)»(dy), entonces, en calidad de conjunto A (f) para cx. [»] de Y(1, y) conti- 
nuas, se pueden utilizar los conjuntos 


A(N = br 19, I < 2140, I, 


asi como se hace, por ejemplo, en la afirmación siguiente. 
Corolario 1. Sea r(x) cualquier función medible limitada Z” + R, fx), continua en 
0 para c.t. [u"] valores de x € Z”. Entonces, la función 


Mert% = [rca dd 
será continua en 9. 
Demostración. Utilicemos el teorema 1 para Y = 2%, y = x, » = p", Y(X) = TOOD, 


A(N = (11 4:00 < 2fal(x)). Es evidente que se han cumplido las condiciones 1) y 2). Como 
para x(x) = 1, la función Mex(X) = 1 es continua, entonces se cumple (véase (2)) 


| somo + 0 
AN 


cuando £ — 6, Pero de aquí, según el teorema 1, resulta la continuidad de Mox(X) para cual- 
quier función limitada x. < 

Si sólo se trata de la condición suficiente para la convergencia (1) en caso de w(t, y) = Y10, 
y) cd. cuando £ — 6, en calidad de tal condición se puede utilizar la convergencia uniforme 
de las integrales en (1). Esta última puede ser definida como la existencia de una medida 


finita à tal, que la desigualdad A(4) < ô = ô(z) contribuye a que sup i lytt, »)lv(dy) < è 
LE 


para e > 0 dado. 
Si existe la mayorante integrable Y(y) = sup¥(t, y), entonces siempre existe tal medida 


N: es suficiente suponer que A(A) = | YOJw(dy). 


E 
2. Corolarios de tas condiciones (R). Aquí demostraremos el lema 2.16.1 y la convergencia 
uniforme de la integral /(0): 


sup Mall a, DI Ga, AI > M0 10) 

. 
cuando N — co (precisamente tal uniformidad se tiene en cuenta en los $$ 2.24, 2.28 y 2.29). 
En vista de que los planteamientos referentes al parámetro unidimensional y multidimensional 


prácticamente no se distinguen, en este apartado y en el que le sigue nos limitaremos a estudiar 
el caso unidimensional. 
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Teorema 2, (lema 2.16.1). Supongamos que se cumple la condición (R) y que S = S(X) es 
cualquier estadística para la cual MyS* < c < œ cuando 8 € 8. Entonces, en la igualdad 
as(0) = MAS) = [SOCIA 
es posible la derivación bajo el signo integral: 
2560) = [SOSOK AS) = MISL’ X, 0), (5 


siendo, en este caso, continua la función a3(6). 
Demostración. Nótese previamente que de (4), cuando S(x) e 1 y n = 1, resulta 


Picanto =0. 5 
Como 2'(X,6) = 2) 1 (xi, 0) es la suma de las variables aleatorias independientes con 
media nula (véase (5)), entonces 
DeL (X, 8) = MaL’ (X, O) = Mela, OY = n1(0). © 
Ahora supongamos que la función 
LaO) = MaL’ (X, DP = ATP dx 
es continua en 9 (aún no podemos utilizar (6)). Hagamos uso ahora del teorema 1 para 


= 2, y = p", W, x) = VOT P, ò = t — 0, A(O = AS) a xi A en ù VA) < 
elote 


<2 Vh, fon MeN IROVI < 2UVRGY 1). mM 


Las condiciones 1) y 2) del teorema 1 para Y(x) = 2410, x) se cumplen en viritud de la conti- 
nuidad de las funciones VJ, y Vf. Por eso, de la convergencia de 7,(f) hacia J,(0) cuando 
1 + 0 obtenemos (véase (2)) que, cuando £ — 8, 


D= [| OTY do = 0. ® 
ain 


Al igual que como hemos obrado en el corolario 1, de aquí obtenemos la continuidad 
de [SCAS (dx). Para convencernos de ello es necesario valerse del teorema 1 “en sentido 
inverso” y utilizar los mismos conjuntos A(1) y Y, x) = S(0/109. Las condiciones 1) y 2) 
del teorema 1 serán, evidentemente, cumplidas (W(x) = 2150/5601, [Wton"d) < 
< 4MsS* x IVAO Y'a" (dx). El cumplimiento de (2) es asegurado por (8) y por la desi- 
gualdad recién citada, en la que la integración ha de efectuarse con arreglo al conjunto 
X 9448). 
Ahora recurriremos directamente a la demostración de (4). Nótese que 


7 (farus - 129) - ffo + uap m f fosa au 
; G 
Utilicemos de muevo el teorema 1 para /= R X 2%, y = (u, x), y = 2 x< a” QX es la medida 
de Lebesgue), W, y) = SA5. sal), $ — 0, A(G) = A10), donde A1 (8) ha sido definida en 
(7). Otra vez de la continuidad de V/,(x) y VÍ(2)" se deduce el Cumplimiento de las condi- 
ciones 1) y 2) del teorema 1: 
YO, DLD — SSi) = YO, y) cuando 5=0, 
sup I8, awl < ASAAN, 
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donde, en virtud de la desigualdad de Cauchy — Buniakovski, 


fisv <4 [fs ja J” <o. 


Ahora bien, para demostrar (4) necesitaremos verificar la condición (2). Esta se desprende 
de la desigualdad de Cauchy — Buniakovski y de la relación (8): 
1 


f f SIar dupl < 


dá d 
1a a 
< ls li Shonta) [ jj f rra] < 
ò MMD 0 
1 1a 
<" [ f 0+ uo] -0 

2 

cuando ò ~ 0, 


Así pues, hemos demostrado (4) suponiendo que 7,(0) es continua, Pero para n = 1, 

In(0) = 1(0), esta suposición también se cumple en virtud de las condiciones (R). Por lo 
tanto, (4) es justa cuando n = 1 y, por consiguiente, también es justa (5). Pero de (5) resulta 
la relación (6) que significa la continuidad de /(9). El teorema queda demostrado, 


Teorema 3. Si el conjunto O es compacto y la función NJi) para Lu] ct. valores de 
x es continuamente derivable respecto a 8, entonces, la continuidad de 1(6) tendrá lugar si 
y sólo si se cumple (3). 


El teorema significa que la continuidad de (9) en la condición (R) puede ser sustituida 
por la condición (3). 
Des 


Supongamos que /(6) se continua y que no se cumple (3). Entonces existe 
y > 0, y las sucesiones £ — 0 € O y N, — so son tales que 


má) a Mill Oo, 01% Oo. 0 > NA > y (0) 
para todos los valores de £ de la sucesión elegida. 
Vtilcemos el teorema 1 para V= Z; » = p Y 2) Y =F U, O, 


A() = (5 IVAGY1 < 2147 1). En virtud de la continuidad de VAQ)”, las condiciones 
1) y 2) del teorema 1 se cumplen y, por consiguiente, de la continuidad de Z(£) se deducirá que 


mi = | IOT Pudo = 0 
A 


cuando 1 =+ 0. Pero m(t) < mi(() + mi(1), donde 


mo= | Wife BO = ls 2071 > NARGI. 
muñeco 
De la forma del conjunto A(1) resulta 


mio <s | INP 


so 


Volviendo a utilizar la convergencia VZO” + (17460), VICO — ATACÓ para t — 6, obtene- 
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mos que B(() converge hacia el conjunto de p-medida O. Esto significa que a(B(/) ~ 0, 
m0) — 0, m(1) — O cuando £ > so, Hemos obtenido la contradicción con (9). La relación 
(3) queda demostrada. 

"Ahora supongamos que se cumple (3). En virtud del teorema 1, para demostrar la conti- 
nuidad /(() es suficiente convencerse que con el mismo conjunto A(1) que hemos utilizado 
más arriba, se cumple m,(£) — O cuando £ — co. Pero 


mOS ES 
wi>n so 
donde, por medio de la elección de N, la primera integral puede hacerse, en virtud de (3), 
tan pequeña como se quiera. Para estimar la segunda integral es necesario notar que 
AAL) = O y que cuando CU) = [xi JAX) < 2fa(x)) se cumple $ fin — O cuando r > 0 
00 
(véase la demostración del corolario 1). T eso 
| su<2 Ls. fu—=0 
sá xo 

cuando £ => 0. < 

3. Corolarivs de las condiciones(RR). 

Teorema 4. Si se cumplen las condiciones (RR), entonces Ífstdu(dx) = 

Junto con el teorema 2 esto asegura el cumplimiento de las condiciones (2.24.4) que nece- 
sitamos en el $ 2.24, 

Demostración. En virtud del teorema 2, para todos 0 € O, 


[inian = 0 
y nos es suficiente demostrar que, cuando £ — 0, 


r] [pe - fin] = [ino 


Lib 1 


Qe - 
Nótese que 5 U- SI) = ei + Fi 9 "donde 0 


do esta igualdad podemos representar /(() en forma de la suma de cuatro sumandos: J(1) = 
=+ h+ dy + Ja, donde 


hajos h= | añ 
ién 


10. 


Pm 


ha | td u= 
13N 


l= I(x) es la mayorante para /*” (x, f) en las condiciones (RR). En virtud del teorema 2, cuando 
n = 1, S(x) = 1’ (x, 0) obtenemos 


u= 
Seguidamente, 


(Ma, 9) — Mal’ (i, 0) — Mol i. 0 = 1O). (10) 


tal <t a 
y, por lo tanto, según el teorema de Lebesgue, 


lim A = | lim por = 02 


36—8030 
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Volviendo a utilizar (11), obtenemos, en virtud de las condiciones (RR), 
ii< | Var | m0 


N N 
cuando N= œ. Por último, en virtud de la desigualdad de Cauchy — Buniakovski, 
Lal S NU- fala < NÎ j idup < N | Vudu = 0 a3 


cuando £ — 9. Comparando (10)—(13) obtenemos que 0 = J() — [fi < 
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Desigualdades para la distribución de la relación de verosimilitud 
en el caso multidimensional 


En este apartado demostraremos el siguiente teorema (teorema 28.2; las designaciones 
véanse en los $62.21, 2.23, 2.28). 

Teorema 1. Supongamos que se cumplen las condiciones siguientes: 

>>, o 
Pm 
Ma Qe, 0) = 0, a) 
y = sup Mall’ (a, 91 > 0o 10) 
7 


para cierto s > k. Entonces, para cualesquiera z, n > 1, r> 0, 


e (mer (E O >.) < oyle- + cuya, 


donde £ > O depende únicamente de £ y s, c < eo depende de k, s y g. 
Como ya hemos señalado en el $ 2.28, para demostrar este teorema utilizaremos la posibi- 
lidad de estimar sup p(u) para cierta función p y para el cubo unitario 
Mekas 


Kos = (u = (un a 40:04 <1, j=l ki 


a través de los valores de p(0) y | 1p"(u)!'di(p"(1) = grad plu). Para realizar esta posibili- 
Kos 
dad necesitaremos la siguiente afirmación, cuya demostración reproducimos aquí, puesto que 
no figura en los conocidos manuales de análisis matemático. Por Cr, C, y Cr, designaremos 
distintas constantes que sólo dependen de sus índices. 
Lema 1. Para cualquier s > k existe Cs, tal, que 


sup Ia) < lol +0 y fip oora) s 


atkos 


para cualquier x € Ko. 
Demostración. Para x, y € Ko. es válida 


z 
DA) =PO | WO + ta- y), x al. 
è 
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Integrando esta igualdad respecto a y € Ko.1, obtenemos 
i 
pa = | podrt | | 00+1-) x- didy e h + h, o 
LA ki 


donde 


hı designan el primero y el segundo, respectivamente. Sustituyamos en la integral 
Za, las variables y = Ž Z, Batonces 


ae dz 


Frp- t= a aper KETA 


h= | 0'0,x- DK, ddz 9 
Koa 


donde K(x, 2) = fe ( 


1x) d des el indicador del cubo Ko, SÍ aquí susti- 
paa 


3 
iz- xl 1 


tuimos £ = 1 = = y podemos escribir 
lz — xl 


u) as 


En vista de que para conser z, x, el porados de función y (x + zx ») 


K, D= te xlt 


iz = xi 
está presente en el segmento [0, 2VK), entonces 
2 


[LIN 


Ko, 3) < Iz = xl ~* Me =- 
kiz — xl* 


5 
Utilizando (5) y la desigualdad de Holder, obtenemos 


r 1» 
ll < Cr f Leha | f wara) E 


a Boa 


=k OB, J= E. AS 
ek OR, J ( ri) Tar iaia 
Ra 


Pero cuando s > k se cumple (k — 1)r = (k — 1) 


donde 


<k 


aie 
samane ÓN 
l 


donde k es un cubo, o sea, K = {z lyl <i, j 
30" 


sn kh 


Ahora bien, en virtud de (4), 
sup lp@)I < IAI + sup Ih! < Ip)l +2 sup Ihl < 
akoa tko stan 


< pl) + Zalk, al í wara) f 
Ka 


El lema queda demostrado. 
Asi pues, la estimación de sup 1p()! es posible en los términos de lp(x)| cuando está 
atkos 


fijo x € Ko. 14 Lp*(u)1*du para s > k. Si seguimos el método que hemos utilizado en el 


1 
caso unidimensional, ahora necesitaremos estimar Ms Ip (u), donde, en calidad de p(u) ele- 
giremos la función 
plu) = 26). © 

Para esto, a su vez, necesitaremos los lemas siguientes. 

Lema 2. Sean by, j = 1, 2, ..., los vectores independientes e igualmente distribuidos 
de R*, ME, = 0, MIA)" < y < œ, $ > 2, Entonces 

M y el Sana”. 
da 

Demostración. Para simplificar los razonamientos nos limitaremos a examinar el caso 
cuando s = 2m es un número entero par”, En este caso es suficiente examinar las variables 
aleatorias escalares EN Mio que Ey = (E, » End, 


| Es dl a [E tu) + a 3 af 


y, en virtud de la desigualdad de Minkovski, 


CAMAT eT 


Para las & escalares tenemos 


| Za] 


donde la suma se realiza con arreglo a todos ji. 


Eh om 


İn enteros, tales, que Dj = s, ji x 1 


Qi = 1 se excluyen, ya que ME, = 0). Según la desigualdad de Hólder, 


IMEI < (MIRY = y) 
Ú mëi < Í Wer 


y. por consiguiente, 


Nos queda estimar 2% 1. Designemos por (ki, . . ., kp) los elementos no nulos (k; > 2) 


del conjunto (a, 


Hd E $ Ki = 5) . Entonces, la suma sujeta a estimación será igual a 


* La demostración en el caso general véase, por ejemplo, en [31], p. 255. 
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Y Ap, donde A, es el número de ubicaciones de los elementos kı, . 
a aba) 
Es evidente que Ap < n(n ~ 1) ... (1 — p + 1). El valor mayor posible de p es igual a 
m = 5/2 (éste corresponde al conjunto (2, 2, ..., 2), así que Ap < Am < n”. Pero el número 
de conjuntos diferentes (Kı, .-., kp) depende exclusivamente de s. Por consiguiente, la suma 
estimada no supera cn”, a 

Supongamos que la función p(u) ha sido definida en (6). 

Lema 3. Si se cumplen las condiciones (2) y (3) 


Melo (11 < cn. 


Kp en n lugares. 


Demostración 


melpt(01 = Me |E r, 0 + Dz = 


= 5 Mo IL (X, 0 + 0) Z(O) = 5 Men lL (X, 0 + 010, 


Nos queda utilizar el lema 2, aplicándolo a las variables aleatorias Ey = 7" (y, 9 + u). 
Designemos por Ku,a el cubo en R*, con lado de longitud A y con vértice en el punto 
u = (ih, m): 


Kus=[veR:u<n<u+d i=l, ..., K). 
Lema 4. Si se cumplen las condiciones del teorema 1, 


z( EA 2(2) > e) X canya" eta eje Mpg, 
k 


donde g = min a a = emmi“, 

Esta misma estimación será cierta para cualquier cubo con lado de longitud A y que 
contiene el punto u. 

Demostración. Representemos el punto v € Ku,a en forma de v = u + tA, donde t € Ko.1. 
Entonces 


rer (az (2) >e) -e (e (ES) e) - 


En virtud del lema 1, 


rl EDT 


Ba 


1 

—-) = Po + Po» 
ra) w + Pon, 
donde Pa) y Po designan el primero y el segundo sumandos, respectivamente. Estimemos 
Po con ayuda de la desigualdad de Chébishev y del teorema 28. 


sete 
Po < Menm, (E) ¿Mee T. ® 


vn, 
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Para estimar Pz también utilizaremos la desigualdad de Chébishev: 
ay u +A R 1 jà 
= < e |. 
a »(f ©) i ( va ) a> [52] )< 
fusta > a 
» ( 5 JE 


< e~a) iM, f (2) 


Ros 


como (2) J p 9e 


Ra 


En virtud del lema 3, 


Pa) S aset 38 
ds G ý 
Poniendo 


y suponiendo, sin limitar la generalidad, y > 1, obtenemos 


-We 
Pee T ee S O? e yal x 


O a e, 


z) 


La última afirmación del lema se deduce, evidentemente, del lema 1 y de la demostración 
expuesta. El lema queda demostrado. < 

Demostración del teorema 1. Cubramos todo el espacio R* de un sistema de cubos Ka 
en los que las coordenadas de los puntos u son múltiplos de A El número de tales cubos, 
que se intersecan con la capa S, = {v € R*: 7 < lul < r + 1), está limitado por la cantidad 
car*”!, Por lo tanto, 


Pe ( sup Z (5) > 3) Saray” + entes, 
ves  Nyn, 


Po (z 6) >e) S acele + e7) PR A 


ya 


La sucesión (r + J=1e"0=0'%% para todos j > ¿(k, 8g), donde j(k, Ag) depende únicamente 
de sus argumentos, decrece más rápidamente que la progresión geométrica con exponente 


J Por cso, la serie en el segundo miembro de (10) no supera, para todos 1 el primer sumando 
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con una exactitud de hasta la constante que sólo depende de k y 8g. Como sup ri" *x 
a r>0 


o 
xo sw as depende únicamente de k y fg, entonces 

La 

Pe (2z >E) coe +e e ? 


telar 


donde e depende de k, s y Ag. Sustituyendo aquí por 8, obtenemos la afirmación del teore- 
ma. < 
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Demostración de dos teoremas fundamentales de la teoría 
de los juegos estadísticos 


Aqui vamos a suponer que se cumplen las condiciones siguientes. 

Condición (A). El conjunto de decisiones D y el conjunto de parámetros (estrategias 
puras de la naturaleza) O son espacios métricos compactos con métricas Qo Y ge, respecti- 
vamente. 

Condición (B). La función de pérdidas w(b, 0% D x © — R es continua respecto a $ 
» 8 en las métricas qn y Qu, respectivamente. 

No necesitaremos la propiedad de w(8, 6) > 0 y no supondremos que ésta tenga lugar. 

Además, disponemos de la muestra X @ Pa de la distribución Po. Su volumen n, sin 
limitar la generalidad, se puede considerar igual a 1. 

Condición (C). Las distribuciones Pe, con arreglo a la variación son continuas respecto 
40,0 sea, 


si Qo(0m, 0) — O cuando m — «o. 
Si se cumple la condición (A,, o sea, si Pe tiene una densidad fẹ(x) respecto a cierta 
medida a-finita y en (2; Ba): 


entonces la condición (C) será equivalente a la continuidad de /a(x) en L(2; Ban p): 
[Uan — Salad Intax) = 0 


si qo(0m, 0) — O cuando m — co, 

Las condiciones (A), (B) y (C) admiten, claro está, la posibilidad de ser finitas a los 
conjuntos D y ©. 

Si D es finito y consta de los puntos ô, ..., &, entonces se cumplirá la condición A 
respecto a D (a elección de qp no tiene importancia), y la condición (B) significará la conti- 
nuidad de las funciones w(31, 6), ..., w(b, 6) respecto a go. 

Si ambos conjuntos D y 8 son finitos, las condiciones (A), (B) y (C) serán cumplidas 
automáticamente. 

Designemos por op y so las o-álgebras de los conjuntos de Borel de D y de €, respectiva- 
mente. Siguiendo el $ 5,3, desigacmos por (4, O, W) el juego estadístico promediado, donde 


568 SUPLEMENTO vint 


como elementos de Ó sirven las distribuciones Q en (O, 00). y como elementos de $, las 
distribuciones x(x) = x(x, -) en (D, op) (para cada x € 2), donde x(x, A) para cada A € ap 
es una función medible respecto a x. 

La función de riesgo W(x, Q) es definida por la igualdad 


va Q= | y | wi Nat, dufan. 
E 


Si en vez del argumento Q se pone 8, entonces W(x, 9) significará W(x, ls), donde Z es 
la distribución concentrada en el punto 6. Este mismo acuerdo será válido respecto a la sustitu- 
ción de x € , por ô € 2. También será más cómodo escribir W en vez de W, ya que esto 
nunca conducirá a equivocaciones. 

Lema 1. Si se cumplen las condiciones (A), (B), (C), la función W(x, 0) será continua 
en 6 para cualquier estrategia x(x). 

Demostración. Tenemos para 6, — 0: 


UW(r, 8a) — Wix, DI < IMÓMDALOO, 6) — wia, 0)/X11 + 
+ IMoMi[w(x(X), 0)/X] — Mo,Miw(r(X), 0)/X11 < 
S Jiwit, O) — WxCO, BAPA + suphi, 091 IPad) — Paid). o 
se 
La primera integral aquí converge a O en virtud de la continuidad de la función w respecto 


a 0. La convergencia a cero de la segunda integral se deduce de la condición (C). En efecto, 
sen falx) la densidad Po, respecto a la medida 


.-Po+ b 2 Pa, 
A 
y sea Ba = (X fa,(x) > fe(x)). Entonces, la segunda integral en (1) será igual a 
GUL — Jal Inda) = 2 | Leo — SADA = UPABA) — Poll) = 0. 
ñ 


El tema queda demostrado. 


Teorema 1. (primer teorema fundamental). Si se cumplen las condiciones (A), (B) y (C), el 
Juego (2, Ö, W) tendrá precio y estrategias minimáx de ambos jugadores. Con otras pa- 
labras, existirá la distribución menos favorable Q y la regla minimáx de decisión 7): 


W= b-a inf Wir, Q) = W(z, 0) = inf sup Wir, Q) = W°. a 
* - 0 


En virtud del lema 2.1, la afirmación (2) es equivalente al hecho de que 
a di O - wa, Ù = inf Wa O e wa Ù. (0) 


Teorema 2 (segundo teorema fundamental). Si se cumplen las condiciones (A), (B) y 
(©), las decisiones bayesianas xo(x) formarán una clase completa. Con otras palabras, para 
cualquier xo € Ž habrá Q€Ó, zo € tales, que 

1) Wino, Q) = WU, Q), 

2) Wira, 0) < W(zo, 6) para todos 8. 


Demostración del teorema 2. El segundo teorema fundamental es el corolario del primero. 
Examinemos la estrategia arbitraria xo € 4 y el juego (9, È, Wo), donde Wo se ha construido 
a base de la función mo(S, 6) = w(8, 6) — W(zo, 8), así que 


Wolt, 0) =W(x, 0) — Wizo, O. o 
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En virtud del lema 1, la función v(8) = W(zo, 6) es continua en $ y, por lo tanto, la función 
de pérdidas w(ó, 6) = w(5, 6) — v(S), junto con w(ë, 6), satisface la condición (B). Esto signi- 
fica que el teorema 1 cs aplicable al juego (4, O, Wo). En vista de que Wo(xo, 1) = 0 (véase 
(4)), el precio siperior de este juego satisface la condiciónW3 < O. Entonces, de (2) y (3) 
se deduce que existen 7, Q tales, que 


Sup WoC, P) = sup Wola, 0) < 0, 3 = rg. 


Estas dos relaciones son equivalentes a las afirmaciones 2) y 1) del teorema 2 si se pone Y = Q, 
=F = 10. El teorema queda demostrado. 

La demostración del teorema 1 se deducirá de los dos lemas siguientes. 

Lema 2. A! cumplirse las condiciones (A), (B) y (C) existirá una distribución Q tal, 
que WO, Q) > inf W(x, 1) œ W°. 

Lema 3. Al cumplirse las condiciones (A), (B) y (C) existirá una estrategia % tal, que 
WG, D) < W, 

De las desigualdades de los lemas 2 y 3 se desprende la relación 


Wawa Nawawi DN 


equivalente u (3) y, por consiguiente, a (2). Esto demuestra el teorema }. < 

Los lemas 2 y 3 dividen la demostración del teorema 1 en dos partes. La primera de 
ellas (lema 2) está muy poco relacionada con el hecho de que el juego es estadístico. Esta 
parte de la demostración se realiza aproximadamente igual que para los juegos ordinarios 
(compárese con (31). 

Demostración del lema 2. Sea V un conjunto de funciones © > R representables en forma 
de v(0) = W(x, 6), z € Í. En virtud del lema 1, todas las funciones de V son continuas, 
así que V C C(O), donde C(8) es el espacio de todas las funciones continuas en O. Asimismo, 
sea vi(0) = Wixi, 6), va(9) = Win, 0). En vista de que para p € (0, 1), 


(9) = pur(O) + (1 — pjur(0) = Wir, + (1 — pyar, O, 
r=pn+(-pneS 
entonces, v € Y y, por lo tanto, el conjunto V es convexo, 
Ahora notemos que W° = inf W(x, 1) = inf sup v(9). En vez de la función inicial 
r “rs 
wD- vo + 1 


W-=w+l 
nando la nueva función otra vez por w(8, 6) (en este caso el problema queda invariable), 
obtenemos que para ella 


w(8, 0) no será más cómodo examinar la función » w = inf inf v(0). Desig- 
wr o 


mal w>0 0) 
Sea ahora U un conjunto de funciones continuas 1(6): O — R tales, que sup (8) < 1. 


D 
Es evidente que U es un conjunto abierto convexo de C(8). Además, de (5) se deduce que 
la intersección VN U está vacía. Por eso, en virtud del teorema de Hahn — Banach (véase, 
por ejemplo, [31], p. 171, 200—206) existe una funcional lineal L(v): C(6) + R tal, que 


L()<1 para vet L(0)>1 para vev. (0 

Esta funcional posee, cuando es necesario, la propiedad L(w) > 0 si v(1) = inf v(9) > 0. En 
` 

efecto, admitiendo la existencia del elemento w € C(G), w(1) > 0, para el cual L(w) < 0, obte- 


nemos que v, = —swy € U, cualquiera que sea s > 0, L(v,) = =sL(vo) > 1 y siempre que s 
sea bastante grande. Esto conduce a cierta contradicción con (6). 
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Pero la funcional no negativa L, en virtud del teorema de Riesz ([42)), p. 240), admite 
la representación en forma de la integral 


L()= | venas, 
è 


donde A es una medida finita. Como 1 > sup Z(w) = M8), entonces, poniendo Ọ(4) = 
"U 
= MA)/MO), obtenemos para v € V: 
L) = (Wir, ONAN = NOW, T, 


ma -yg > 1 


El lema queda demostrado. 

Demostración del lema 3. En vista de que la función W(x, 8) para cada x €F es continua 
respecto a 0 (véase el lema 1), nos es suficiente construir la estrategia 7? para la cual, con 
todos k = 1, 2, ..., 

WG, 01) < W°, m 


donde d son puntos de cierto conjunto numerable T = (0,, 92, ...) siempre denso en D. 
Según la definición del precio superior de W°, existe una sucesión de estrategias ma = 1n(%,") 
tal, que 


Winn, 04) < W° + 1/n e) 


para todos A. 

Ahora, mediante las distribuciones xa construyamos la sucesión de elementos aleatorios 
especialmente seleccionados fa y separemos de ella la subsucesión convergente. Para esto, 
designemos por fa (x) la densidad de la distribución Pe, respecto a la medida probabilística 


„= $ 27 Po, así que 
fi 
Winn, 00) = f fwi ayete, duo alds) 


Examinemos el espacio D x R7, donde R7 es el espacio de los valores de los elementos f(x) = 

= Vn), Jant), -..) con o-álgebra Y” engendrada por los conjuntos cilíndricos. Pongamos 
a cada estrategia x en correspondencia con el espacio probabilístico (D x 2; ooW¿» P), don- 
de la distribución P es definida por la igualdad 


POEA, XEB)= | ald)r(x A), Atoo, AED. 0) 
, 


Definamos en este espacio los elementos aleatorios $ = $(3; X) = (8; a. 00, Ja(20, +.) = 
= (6; JX) y designamos por $. los elementos correspondientes a xo, así que $, son variables 
aleatorias en el espacio probabilístico muestral (D x R7, go x %7, Ta), y la distribución Ma 
ha sido engendrada por x+, por la fórmula (10) y por la aplicación $(8, x): D x Z= D x R'. 

Designemos por MY? las contracciones de la distribución Il, en D x R* (esla distribución 
compatible (3; fa (X), - »-»S2(X0), y por A la distribución f(X) en (2; Bans a). Necesitaremos 
el 


Lema 4. Existe tal disitribución TI en el espacio medible (D X R”, op X B”) y tal subsu- 
cesión (xn) C (1), que 


ng - a 
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para cualquier k (1%? son las contracciones de Ti), 
TØx O=O, CES. a» 


La demostración del lema 4 se ofrecerá más tarde. pl 

Designemos por $ = (3; J) cierto elemento aleatorio con distribución TL La relación (12) 
significa que la distribución J coincide con A (la segunda “coordenada” f, no modifica la 
distribución al variar n). Como el espacio D constituye un compacto métrico, el mismo es 
Separable y, por consiguiente, (véase [38], p. 191) existe cierta distribución condicional (regu- 
lar) 3 respecto a J(X), la cual designaremos por IM(//(x). 

Examinemos la estrategia F(x, A) = ING € A//(X)) y demostremos que para ella se 
cumple (7), 

Señalemos previamente que 


MWG, Fn = MIMO, 00/%) = [aD ru, halu, ddad) = WE, 0). (13) 
Seguidamente, en virtud del lema 4, la distribución (ön, fe, (X)) converge débilmente hacia 


la distribución (3, f(X)). Como la función w es continua, la distribución compatible 
(W(bx», 02), fo,(X)) converge débilmente hacia la distribución (w(5, 04), Je, (X)). Pero la fun- 
ción g(u, v) = w(u, 0s)v es continua respecto a u y v y es mayorada por la función g(w) = cu, 
c = máx w(u, 04) tal, que M8Ua (X0) = cl/a(ouldx) = c. Por eso, según el teorema de 


continuidad para los momentos (véase el teorema 1.5.4), 
Min, fa (0) = M8, Jn), 
o bien, que es lo mismo, lim Mwn., 0/1.) = MwĜ, 0700. 
En virtud de (9) y ad), esto nos ofrece la convergencia 
ra Wian, 00) = WO, 00) 


En vista de que el primer miembro de esta igualdad (véase (8)) no supera W°, el lema 3 
queda demostrado. 

Demostración del lema 4. Fijemos cualquier k > 1 y examinemos D x R* como espacio 
Separable métrico completo respecto a la métrica engendrada por la métrica euclidea en R* 
y la métrica qp. Para cualquier e > 0 en R* habrá un compacto K; tal, que P(n (X), 
LAY € Ka) > 1 ~ 2. Dx Ke es un compacto un D x R* y como 


Pln ED, Yi 0, +. SAN EK) 21€ 


la sucesión de las distribuciones IIJ? es densa (véase [5]). Por consiguiente, según el teorema 
de Prójorov [5], existe una distribución TI y una subsucesión n% = (nf9, n$, ...) tales, 
que N% =» 11%, Pero las distribuciones T® , evic iie, se hallan en concordancia y, 
por consiguiente, según el teorema de Kolmogórov, en (D X R7, up X 8”) existe cierta distri- 
bución TI para la cual 11% son las contracciones en (D x Ri, 00 x 9), 

Por otro lado, podemos considerar que n%*D C 7%, Poniendo n* = (af, n, nf”, ...) 
obtendremos una subsucesión para la cual TIS? => T1% con todos los valores de k. 

Demostremos ahora (12). Sea C € 8 7 un conjunto cilindrico tal, que la Tmedida de 
su frontera es igual a cero. Designemos por C® = CN R* € 8 * d conjunto de R* formado 
por las primeras k coordenadas de los puntos de C, y pongamos C® = C® x RT=k 97, 


Entonces (EW) = IPD x C9) + ROD x C9), Como D*+? c 7%, C= (7, 
entonces t-i 
NO = mA) = lim TD x C® = 16 To x 7%) = TD x O. 
m p 
El tema 4 queda demostrado. 


Tabla I. Distribución normal #o,, 
En la tabla se dan los valores de 


TO = Pol o) = = fora. 


Tabla I 


Tabla 1 (continuación) 


Tabla HL. Cuantilas de la distribución normal 
En la tabla se dan los valores de \ tales, que 


FOAD = Lose, o) = 6. 
Tabla 11 


5 TABLA M 


Tabla MI. Distribución Ji-cuadrado Ha 
En la tabla se dan los valores (véanse el $922) „ 


E SR: 1910, 
Hito) = Hale, o) mal” ea 


cuando 1 < k < 20. Para mayores valores de K se puede utilizar la aproximación (véase el 
$22, tabla 1) 


Hubo = FVE - VIE — 1) a Ao. o 


La última columna de la tabla contiene los valores de As(x) cuando k = 20. Comparán- 
dotos con los valores dados en la columna anterior se puede estimar el grado de precisión 
de la aproximación (1). Con el aumento de k disminuye el error. 


Tobla 111 


TABLA m 575 


Tabla 111 (continuación) 


576 TABLA Ut 


Tabla 111 (continuación) 


TABLA m sm 


Tabla III (continuación) 


8030 


578 TABLA 1V 


Tabla IV. Distribución de Student T, 
En la tabla se dan los valores de 


Talx) = Talla, 00) = Tete fa + PIA de 
VERT (k/2) 


cuando 1 < x < 20. Para mayores valores de k se puede utilizar la aproximación (véase 
el $22, tabla 1) 


Tex) = B) = Polir, o). a 


La exactitud de aproximación (2) cuando k = 20 se puede apreciar comparando la última 
columna de la tabla con la tabla 1. 


Tabla 1V 


e 


E Y p z 
aan waanSamaarnb waandaa Do 
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Tabla IV (continuación) 
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Tabla IV (continuación) 
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Observaciones bibliográficas 


Más abajo se aducen algunos comentarios bibliográficos en los que se hacen intentos 
de seguir la historia de aparición de las ideas y los resultados fundamentales expuestos en 
este libro. Dichos comentarios no pretenden ser completos y a menudo contendrán referencias 
no a artículos originales poco abordables, sino a manuales, monografías o artículos de resu- 
men, en los que es más fácil hallar los resultados necesarios. Por ejemplo, en [95] y [57] 
se ofrecen indicaciones bibliográficas e informaciones históricas más amplias. 

Algunos conceptos fundamentales de la estadística matemática surgieron ya a principios 
del siglo pasado y están relacionados con los nombres de Laplace y Gauss, A finales del 
siglo pasado, los trabajos de K. Pearson dieron comienzo a un perlodo de desarrollo intenso 
de dicha ciencia. El mismo ha sido condicionado por las obras fundamentales de R. Fisher, 
J. Neyman, A. N. Kolmogórov y A. Wald. En la Unión Soviética, el desarrollo de la estadística 
matemática se halla relacionado, antes que nada, con los nombres de A. N. Kolmogórov y 
N. V. Smirnov. 


Capítulo 1 


$$ 2—4. El teorema de Glivenko — Cantelli fue establecido en el año (a Gtivenko le perte- 
nece su demostración para una distribución continua, y a Cantelli, para el caso general). 

La demostración del teorema 1.2.2 se asemeja a la expuesta en [61), p. 28, y es un 
particular de utilización de un enfoque más general basado en la “aproximación finita” de 
la dase de conjuntos sujetos a estudio. En su forma completa, este enfoque se ofrece en el 
Suplemento 1, donde ha sido demostrado el teorema 1.4.2. Un enfoque análogo fue examinado 
independientemente en [27]. La ley del logaritmo reiterado (teorema 1.4.3) fue establecida 
en (52). 

$ 6, Los teoremas 1.6.1 y 1.6.2 de la distribución de nF3(f) se dan en el libro de Feller 
B32), t. 2, $ 3, cap. III. El teorema 1.6.3 de la convergencia del proceso (Fx — F(0) hacia 
el puente browniano, demostrado en el Suplemento I, fue establecido por Donsker en (28). 
Una demostración algo diferente (en comparación con el Suplemento II) del teorema 1.6.3 
se ofrece en la obra de Billingsley [5]. 

$7. La afirmación del ejemplo 1.7.3 acerca de la distribución límite de la estadística 
XX) Gi-cuadrado) fue por primera vez obtenida por K. Pearson (véase [25], p.454). 

$ 8. La afirmación del corolario 1.8.2 constituye el contenido del teorema de Kolmogórow, 
y la del corolario 1.8.3, el del teorema de Smirnov. Este último también comprende la forma 
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ñ 
explicita de la distribución de Í [w*(9)Jdt, que omitimos debido a su complejidad (véase 
18). è 
$ 10, Las estimaciones de la densidad que se examinan en este párrafo fueron introducidas 
por Parzen [72] y Rosenblatt 179]. La bibliografía y el análisis de los resultados en esta direc- 
ción se exponen en el trabajo de resumen de Rosenblatt [80] y en el $ 25 del libro de Chentsov 
p9). 


Capítulo 2 


$2. Algunas otras familias paramétricas se describen en el libro de Wilks [93]. Una inves- 
tigación muy completa de las distribuciones de los términos de la serie variacional fue llevada 
a efecto B. V. Gnedenko. Una exposición completa de los resultados y una amplia bibliografía 
al respecto se pueden haltar en la obra de David [26]. 

$ 4. El método de momentos es, históricamente, el primer método regular de construcción 
de las estimaciones. El mismo fue propuesto por K. Pearson en 1894, 

$ 5. El método del mínimo x? fue propuesto por R. Fisher en 1922. 

$ 6. El método de verosimilitud máxima en casos particulares fue empleado aún por 
Gauss. Como método general para obtener las estimaciones, el mismo fue propuesto por 
Fisher en 1912 en un artículo breve. Más tarde, en 1925, Fisher estudió las propiedades asintóti- 
cas de la evm. en su obra clásica [35]. 

$5 7 y 8. Los enfoques expuestos, dedicados a la comparación de las estimaciones, son 
universalmente reconocidos. Hemos adoptado la demostración del lema 2.7.3 dada en (25). 
El concepto de estimación eficiente fue introducido en 1922 por Fisher en [34). 

$$ 9 y 10. El concepto fundamental de esperanza matemática condicional fue introducido 
en 1933 por A. N. Kolmogórov en su obra clásica [54]. Las propiedades de las distribuciones 
condicionales fueron detalladamente estudiadas en [38], [30] y 184). 

$ 11. El enfoque bayesiano ha sido ampliamente utilizado por Laplace aún en el siglo 
pasado. Este enfoque fue criticado por Fisher, y en los años 20 y 30 de nuestro siglo, el centro 
de gravedad de las investigaciones se desplazó hacia las estimaciones eficientes y asintótica- 
mente eficientes. Más tarde, a medida que se concebía el papel fundamental del enfoque baye- 
siano, otra vez comenzó a crecer el interés por este último. 

El concepto de estimación minimax se introdujo en la estadística matemática junto con 
el enfoque de la teoría de los juegos, desarrollado en los trabajos de Borel (1921) y J. Neyman 
(1928); los teoremas 2.11.1—2.11.3 fueron obtenidos por Hodges y Lehman (44). 

$ 12. El concepto fundamental de la estadística suficiente fue introducido en 1922 por 
R. Fisher en [34], quien, y más tarde J. Neyman [66], propusieron un criterio simple que revela 
la existencia y el tipo de estadística suficiente. Este criterio lleva el nombre de teorema de 
factorización de Neyman — Fisher y está representado en el teorema 2.12.1. La estricta demos- 
tración del teorema de Neyman — Fisher, desde el punto de vista de la teoría de los conjuntos, 
fue obtenida tan sólo en 1949 por Halmos y Savage [43]. 

$ 13. El concepto de o-álgebra suficiente es más amplio que el concepto de estadística 
suficiente. Las condiciones necesarias y suficientes para su coincidencia se dan en [95). Tanto 
la construcción de las particiones suficientes como el teorema 2.13.1 están relacionados con 
el trabajo de Lehmann y Scheffe [59] dedicado a la aclaración de las condiciones de existencia 
y a ta construcción de las estadísticas mínimas suficientes. La exposición breve de este artículo 
se ofrece en [95]. La demostración del teorema 2.13.2 le pertenece a 1. S. Borisov. 

$ 14, El teorema 2.14.1 fue independientemente obtenido por Blackwell [6) (1947), Rao 
[75] (1945), 176] (1949) y Kolmogórov [53] (1950). Los autores del teorema 2.14.3 son Rao 
[76] (1949) y Blackwell [6] (1947). 
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$ 15. La familia exponencial ha sido mencionada por Fisher aún en {34}, pero su impor- 
tancia teórica fue concebida en los años 30 en las obras de Pitman, Kupman y Darmois. 
Por eso dicha familia a veces lleva los nombres de estos científicos. El teorema 2.15.2 fue 
demostrado por Lehmann ((57), p. 183). 

$$ 16 y 17. La desigualdad de Rao — Cramer a veces también se denomina desigualdad 
de información. De hecho, ésta pertenece a Fisher [35), aunque en la forma expuesta fue 
independientemente obtenida por Frechet {37} en 1943, Rao [74] en 1945 y Cramer [24] en 
1946. 

Las condiciones de regularidad, necesarias para el cumplimiento de la desigualdad, en 
los manuales de estadística matemática no siempre se interpretan correctamente, Se trata de 
las condiciones que aseguran la validez de la derivación respecto al parámetro bajo el signo 
integral. La demostración de dicha validez a menudo contiene lagunas (véase por ejemplo, 
195]) o su exposición no se ofrece en absotuto (por ejemplo, en [86)). En una serie de casos, 
Ja misma se menciona en forma de condición [86]), lo cual no es cómodo para la verificación 
en problemas reales. 

Las condiciones de regularidad adoptadas en el libro son muy simples, aunque, por lo 
visto, no son las más generales (compárense con ((48]). El hecho de que en estas condiciones 
se pueda derivar bajo el signo integral, fue demostrado en el Suplemento VI escrito a base 
de los resultados obtenidos por A. L. Sajanenko. 

En [95] y [19] se ofrecen distintas generalizaciones de la desigualdad de Rao — Cramer. 
El concepto de información (de Fisher) fue introducido en [35]. Al demostrar los teoremas 
2.16.1A y 2.17.1 nos hemos guiado por los libros [95] y [48]. 

$$ 18 y 19. A Hotelling y Pitman les pertenece la idea de utilizar las consideraciones 
invariantes. S. Stein contribuyó considerablemente al desarrollo de ta teoría. El contenido 
principal del teorema 2.18.1 le pertenece a Pitman. Al demostrarlo hemos utilizado las exposi- 
ciones en [95] y [48]. El carácter minimax de la estimación de Pitman fue establecido por 
Girchik y Savage. 

$20, Los resultados de este párrafo fueron obtenidos por el autor junto con A. 1. Sajanen= 
ko [13]. Cuando las límitaciones son más rígidas, algunas desigualdades también se pueden 
obtener de las obras [40] y (18). 

$21. En el caso paramétrico, la distancia de Kullback — Leibler también se ama función 
de información de Kullback — Leibler. Al describir las probabilidades de las grandes divergen- 
cias de la distribución empírica, I. N. Sanov llegó independientemente a la referida distancia. 
La idea del amplio uso de la distancia de Hellinger para estudiar las propiedades de la relación 
de verosimilitud fue adoptada del libro de Ibraguímov y Jasminski [48]. Las demostraciones 
de los principales teoremas del $ 23 también se basan en los resultados de este libro. La demos- 
tración del teorema 2.21.3 ha sido considerablemente simplificada por A. I. Sajanenko. 

$22. El teorema 2.22.1 fue establecido en 1952 por Chapman y Robbins en (17) y en 
1952 por Kiefer en [SI]. 

$6 23—25. Se expone el material de nuestras conferencias, perfeccionado considerable- 
mente después de la aparición del libro de Ibraguímov y Jasminski (48]. Los prefeccionamien- 
tos principales están relacionados con la utilización sistemática de la distancia de Hellinger 
para estimar MeZ'(u). A. I. Sajanenko propuso utilizar [Mp1(Z**(1))1du para estimar 
sup Z(u) (véanse los teoremas 2.23.1 y 2.23.2). Aún Fisher, en (35), estableció la normalidad 


asintótica y la eficacia asintótica de la ev.m. Condiciones muy generales de la normalidad 
asintótica de la ev.m. fueron obtenidas en [48]. 

La normalidad asintótica de la densidad a posteriori (o de la relación de verosimilitud) 
fue descubierta por S. N. Bernshtein en 1927. El teorema 2.25.4 pertenece a Bahadur [1]. Los 
caracteres asintóticamente bayesiano y asintóticamente minimax de la ev.m. se obtienen fácil- 
mente merced a los resultados del $2.20. Antes, el carácter asintóticamente bayesiano de la 
exam, se establecía con limitaciones más rígidas para la densidad de la distribución a priori. 
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Hemos utilizado, para demostrar los teoremas 2.24.1 y 2.24.2, algunos perfeccionamientos 
propuestos por A. I. Sajanenko. 

§ 26. Se expone una de las variantes del método numérico de Ruffson para determinar 
el extremo de la función. Véase la exposición con más detalles en [95]. Hemos adoptado el 
ejemplo 3 det libro de Rao [76]. 

$27. La investigación de la conciliabilidad de la ev.m. fue comenzada en los años 30 
y 40 en los trabajos de Doob [29), Wald [88], Wolfowitz (94] y Cramer (25]. Las principales 
condiciones de conciliabilidad comprenden, en [88) (además de las condiciones (4,), (Ae), 
(4o)), la pertenencia de /:(x) a la clase Do y la integrabilidad de 


fin Pn). 


En la monografia [48] fueron obtenidas las condiciones de conciliabilidad que utilizan la con- 
vergencia 

¡509 Vie - JO PEA 0 paa A= 0. 
Los resultados de los teoremas 27.1 y 27.2 y de sus corolarios son más generales, El método 
de demostración es semejante a [88]. La suficiencia de las condiciones (48) y (2.27.2) fue 
revelada por A. 1. Sajanenko. 

$5 28 y 29. Véanse los comentarios a los $$ 23—27. Hemos adoptado el ejemplo 2.28.1. 
del libro de Van der Waerden [86]. 

En la exposición de los párrafos 28 y 29 hemos introducido varios perfeccionamientos 
en comparación con la variante inicial, o sea, mejoras propuestas por A. I. Sajanenko (en 
particularidad, hemos añadido el teorema 2.29.5). Estas modificaciones permitieron simplifi- 
car el texto en los $5 13—15 del capítulo 3. 

$30. La estimación sucesiva se expone con más detalles, por ejemplo, en (95). 

55 31 y 32. Por Jo visto, fue Laplace quien introdujo por primera vez los intervalos confi- 
denciales. Aún en 1812 él mostró que se podía invertir respecto a p la afirmación acerca del 
grado de divergencia de la frecuencia observada y de la probabilidad binomial p, con el fin 
de hallar el intervalo para los posibles valores de p. En 1927, Wilson dio la justa interpretación 
de los intervalos confidenciales (la cual no supone la casualidad del parámetro). 

En 1930, Fisher, en (36), propuso un método general de determinación de los intervalos 
confidenciales exactos. En 1937 y 1938 Neyman desarrolló la teoría general de afirmaciones 
confidenciales y estableció su relación con la teoría de verificación de las hipótesis. La moder- 
na exposición, muy completa, de esta cuestión se puede hallar en el libro de Lehmann [57]. 
Hemos utilizado esta exposición en el § 3.7. 

El teorema 2.32.1 y el lema 2.23.2 le pertenecen a Fisher. 


Capítulo 3 


Las primeras aplicaciones de los criterios estadísticos remontan a Laplace (final del siglo 
18). El uso sistemático de los criterios para verificar las hipótesis se inicia a partir de los 
trabajos de K. Pearson, quien propuso, en 1900, el criterio x°. Los principales conceptos de 
errores de primero y segundo género fueron introducidos en 1928 por Neyman y Pearson 
en [68], Estos mismos autores fueron los primeros en concebir la importancia de las alternati- 
vas para clegir racionalmente el criterio. En la obra conclusiva de Neyman y Pearson 169] 
se desarrolla la teoría del c. u.m.p. 

El libro de Lehmann [57] contiene la exposición sistemática de la teoría de verificación 
de las hipótesis. 

$$ 1-3. El lema fundamental de Neyman — Pearson fue obtenido en [69]. Los teoremas 
3.1.1 se pueden extraer del libro de Blackwell Girshik [7]. El tibro de Lehmann [57] contiene 
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el teorema 3.2.1, El teorema 3.3.1 de las grandes divergencias le pertenece a Cramer (véase 
ILD. La estimación de la calidad de los criterios, relacionada con las probabilidades de las 
grandes divergencias, constituyó la base del concepto de eficacia del criterio de Bahadur. En 
[3] se exponen los resultados de las investigaciones con arreglo a esta tendencia. 

La importancia de la estadística de aportación eficiente fue revelada aún en 1925 en la 
Obra de Fisher [35). En lo sucesivo, el enfoque relacionado con el estudio de las hipótesis 
semejantes fue desarrollado intensamente en los trabajos de Le Cam, Roussas y Chíbisov 
(véanse también los comentarios a los $3 3.14 y 3.15). 

$ 4. La referida concepción general de los criterios estadísticos ha sido universalmente 
reconocida (véanse [25] y [57)). El concepto de cu.m.p. fue introducido por Neyman y Pearson 
en [69]. Aún en el siglo 19, Laplace utilizó el enfoque bayesíano. 

$ 5—8, Los resultados principales de estos párrafos se han tomado del libro de Lehmann 
157). La exposición también es semejante a la de este libro y se distingue por el hecho de 
que se basa no en el lema generalizado de Neyman — Pearson (lema 3.5.2, véase también 
157)), sino en el enfoque bayesiano. Esto simplifica la exposición y la hace más armoniosa. 

Ciertas observaciones referentes a los conjuntos confidenciales se exponen en los comen- 
tarios a los §§ 2.31 y 3.32, 

En el libro de Grenander (39] se examina la posibilidad de extender los resultados princi- 
pales a los procesos aleatorios. 

$9. Los autores del teorema 3.9.1 son Hodges y Lehmann [44]. 

$ 10. El papel fundamental de la relación de verosimilitud en la estadística matemática 
fue aclarado en los trabajos de Neyman y Pearson [68], [69]. Al estudio del &rv. se han dedica- 
do muchos libros. Ciertas tentativas de establecer unas u otras propiedades de optimización 
asintótica de este criterio se ofrecen en los trabajos [2), [88], [71], [93] y 145). 

$ 11. Wald [89] fue quien más contribuyó al desarrollo de la teoría del análisis secuencial. 
La exposición más completa de los resultados principales, por la cual nos guíammos en nuestro 
libro, se ofrece en [57]. 

$ 12. Los criterios de Kolmogórov y «w? se exponen en el $ 1.8 y en los comentarios a 
este último. A su vez, algunas modificaciones del criterio de Kolmogórow, que proporcionan 
la potencia máxima posible, se dan en [16]. El criterio de Moran fue propuesto en [64). Su 
potencia para las alternativas semejantes se estudió en [91) y (20). 

$ 13. El carácter asintóticamente bayesiano del crv. ue determinado en el trabajo del 
autor de (10). Los resultados de la distribución límite de la relación de verosimilitud para 
la hipótesis principal fueron obtenidos por Wilks [92] y Wald [87] (véase también el libro 
de Wilks [93)). Wald utilizó la idea de sustituir la hipótesis compleja por una hipótesis prome- 
diada. En el trabajo [60] se examina la forma asintótica de los criterios bayesianos. Véanse 
también los comentarios a los $$ 28 y 29 del capítulo 2. 

$5 14 y 15. Las principales ideas relacionadas con la determinación de los tests asintótica- 
mente óptimos para hipótesis semejantes se exponen en las obras de Wald [87], Le Cam, Rou- 
ssas (véase el libro de Roussas 181]) y Chíbisov [22]. En el libro [14] se analiza la posibilidad 
de extender los resultados principales al caso del parámetro de dimensión infinita (es decir, 
a los procesos aleatorios). La forma de exposición de los $$ 14 y 15 está poco relacionada 
con los trabajos citados. En el tibro [87] de Wald se ofrece la reducción del problema inicial 
A a un problema B para el parámetro de distribución normal al determinar los criterios ópti- 
mos de los principales tipos de problemas examinados en el $ 14. La afirmación del teorema 
3.15.4 acerca de la distribución de la estadística 2 In R(X) para la hipótesis Hi se examina 
en [93]. Véanse también los comentarios a los $$ 28 y 29 del capítulo 2. 

$$ 16 y 17. En el año 1900, K. Pearson propuso el criterio x?, al cual se han dedicado 
muchos libros (véase, por ejemplo, la monografía especial de Lancaster [$6]). El examen de 
las diversas propiedades de la optimización se expone en 187), [71], [93], [45], etc. El comporta- 
miento de la potencia del criterio x? al aumentar el número de grupos se analiza, por ejemplo, 
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en [12) y [21]. Los ejemplos 3.16.1 y 3.17.2 se han adoptado del libro de Cramer [25], y el 
ejemplo 3.17.1, del libro de Rao [76]. 

$ 18, Al estudiar la estabilidad de las decisiones estadísticas es muy difícil seguir la etapa 
inicial de ese estudio. Las investigaciones posteriores se basan en los trabajos de Takeuchi, 
Hodges y Lebmann. En el libro [47] de Huber se hace un resumen detallado de dicha ten- 
dencia. 


Capítulo 4 


$ 1. El criterio x? en el problema del ejemplo 4.1.1, el criterio de Student en el problema 
del ejemplo 4.1.3 y el criterio de Fisher en los problemas de los ejemplos 4.1.4 y 4.1.5 se utilizan 
muy a menudo, En el libro [57] de Lehmann se dan otras propiedades de optimización de 
estos criterios, El ejemplo 4.1.1A se ha tomado del libro [76]. Hay muchos libros (véase [57)) 
dedicados al problema de Beherns — Fisher (ejemplo 4.1.6). 

$2. Gnedenko y Koroliuk (véase [32J) hallaron la distribución exacta de la estadística 
Dn.n y Smirnov, la distribución limite de lá estadística Dam. El teorema 4.2.2. fue demos- 
trado por primera vez en [62] con ayuda del método de momentos. Los criterios de signos 
y de Wilkoxon también se ofrecen en [41]. 

55 3 y 4. Los problemas de regresión y análisis de varianza se exponen más detalladamente 
en las monografías especiales de Seber [83] y Scheffe [82]. Véanse asimismo [25], [57] y [76]. 

$ 5. La observación acerca de la optimización asintótica del criterio (4,5.3) fue tomada 
de [10]. 


Capítulo 5 


En matemática, la tendencia relacionada con la teoría de los juegos surgió tras la publica- 
ción de los trabajos de Borel en 1921 y de von Neumann en 1928. En la estadística matemática, 
como trabajo inicial, que preparó el uso de la teoría de los juegos, puede considerarse la 
obra clásica de Neyman y Pearson [70], en la que se enuncian muchas ideas fundamentales 
de la teoría de las decisiones estadísticas. Wald contribuyó considerablemente al desarrollo 
de la teoría general de las decisiones estadísticas. En su libro conclusivo (90) se exponen los 
postulados fundamentales de esta teoría. No obstante, la teoría matemática general de los 
juegos adquirió su pleno desarrollo en el libro de von Neumann y Morgenstern [65]. 

Los fundamentos de la teoría de los juegos estadísticos plantean de una forma muy acce- 
sible en los libros de Girshik y Blackwell [7] y de Ferguson [33]. 

$ 2. El libro de McKinsey [63] constituye una introducción relativamente completa a la 
teoría ordinaria de los juegos. 

$5 3 y 4. En [7] y [33] se da una descripción más completa de los fundamentos de 
teoría de los juegos estadísticos. En estos libros, dos teoremas fundamentales de la teoría 
delos juegos estadísticos sólo se demuestran en el caso particular, para los conjuntos discretos 
D y 0. Ello se explica por el hecho de que la exposición en el caso general es muy compleja 
(véase [90)). En el Suplemento VIII se da la demostración más simple que conocemos de 
tales teoremas, la cual fue hallada por A. I. Sajanenko. 

El papel del enfoque bayesiano en distintos tiempos se evaluaba de manera diferente. 
El mismo ha sido ampliamente utilizado por Laplace en el siglo pasado. Después fue criticado 
por Fisher, y en los años 20 y 30 de nuestro siglo, el centro de gravedad se desplazó hacia 
las estimaciones eficientes y asintóticamente eficientes. Más tarde, a medida que se concebía 
la importancia fundamental del referido enfoque, otra vez comenzó a crecer el interés por 
él. Esa importancia fundamental es aclarada en los teoremas 5.3.1 y 5.3.2. 

$ 5. El concepto fundamental de estadística suficiente fue introducido por R. Fisher [34] 
en el año 1922. R. Fisher [34] y más tarde J. Neyman [66] propusieron un criterio simple 
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que revela la existencia y el tipo de estadística suficiente. Este criterio es conocido con el 
nombre de teorema de factorización de Neyman — Fisher y está representado en el teorema 
La estricta demostración del teorema de Neyman — Fisher, desde el punto de vista 
teoría de los conjuntos, fue obtenida tan sólo en 1949 por Halmos y Savage (43). 

El concepto de o-álgebra suficiente es más amplio que el concepto de estadística suficien- 
te. Las condiciones necesarias y suficientes para su coincidencia se dan en [95]. El teorema 
5.5.1 (primero para la función cuadrática de pérdidas) fue independientemente obtenido por 
Blackwell [6] (1947), Rao [74] (1945), [75] (1949) y Kolmogórov [53] (1950). Las generaliza- 
ciones para el caso de función arbitraria de pérdidas están íntimamente ligadas a los nombres 
de Lehmann y Scheffe [95]. 

A Hotelling y Pitman les pertenece la idea de utilizar las consideraciones invariantes. 
Ch. Stein (véanse 195] y 148)) contribuyó considerablemente al desarrollo de la teoría. 

En [95] se ofrecen datos más detallados acerca del carácter no desplazado. 

$ 6. El libro [48] de Ibraguímov y Jasminski contiene resultados semejantes a los teoremas 
de este párrafo. 

$ 7. El carácter asintóticamente bayesiano del crv. fue establecido en el trabajo del autor 
de [10]. Los resultados de la distribución límite de la relación de verosimilitud para la hipótesis 
principal fueron obtenidos por Wilks (92] y Wald [87] (véase también el libro de Wilks 1931). 
Wald utilizó la idea de sustituir la hipótesis compleja por una hipótesis promediada. El tipo 
asintótico de criterios bayesianos se expone en [60]. 

$ 8, Las principales ideas relacionadas con la determinación de los tests asintóticamente 
óptimos para hipótesis semejantes se examinan en los trabajos de Wald 187], Le Cam, Roussas 
(véase el libro [81] de Roussas) y Chíbisov [22]. En [15] se estudia la posibilidad de extender 
los resultados principales al caso de un parámetro de dimensión infinita (es decir, a los proce- 
sos aleatorios). La forma de exposición del $ 8 y de los $5 14 y 15 del capítulo 3 está poco 
relacionada con los trabajos citados. La reducción del problema inicial A a un problema B 
(para el parámetro de distribución normal), al determinar los criterios óptimos para los princi- 
pales tipos de problemas, se analiza en el trabajo de Wald 187). 


de 


Suplemento VII 


Fue A. A. Mogulski quien propuso utilizar el lema 1 para demostrar el teorema 2.28. 
La demostración de este lema se remonta a S. L. Sóbolev. La demostración del lema 1 también 
se puede obtener fácilmente utilizando los resultados de [96]. En la edición rusa del libro 
se da otra demostración del teorema 2.28, la cual utiliza ciertas ideas de A. N. Kolmogórov 
acerca de la estimación de la distribución del máximo del proceso aleatorio. 


Suplemento VII 


La demostración de dos teoremas fundamentales de la teoría de los juegos estadísticos 
se ofrece en [90] y, para suposiciones más particulares, en [7] y [33]. En el libro presente 
se expone el enfoque de la demostración propuesta por A. I. Sajanenko. Su parte central cons- 
ta de los lemas 2 y 3. De hecho, el lema 2 no está relacionado con el carácter estadístico 
del juego, se basa en los teoremas de Habn — Banach y de Riss y por su idea se asemeja 
a los razonamientos utilizados, por ejemplo, en [31]. La demostración del lema 3 se basa 
en los teoremas de Kolmogórov [54] y Prójorov [5). 
Al trazar las tablas I—IV se utilizó el libro de Bolshev y Smirnov (8). 
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Designaciones principales 


Las designaciones se dan en orden alfabético: primero el alfabeto ruso, después el latino 
y el griego. Al final se ofrecen los símbolos matemáticos. 


(Ao), condición de correspondencia biunivoca entre el conjunto paramétrico O y la fami» 
la de distribuciones P= (Po) oco(Po, 2 Po, si 61 0 02) 

(Ac), condición consistente en que el conjunto paramétrico O es compacto 

(A), condición en virtud de la cual todas las distribuciones de la familia. P= (Po) son 
dominadas por la medida p (existe la densidad f = dP4/dp) 

b, DO), desplazamiento 

$, álgebra de los conjuntos de Borel sobre la recta R 

Ba; álgebra en el espacio de fase 2 (de los conjuntos de Borel si Z= R" 

Bp, distribución polinomial (incluyendo la distribución de Bernoulli) 

Cía, b), espacio de las funciones continuas en [a, BJ. 

cab, criterio asintóticamente bayesiano 

caum.p, criterio asintóticamente uniforme más potente 

Cd., casi por doquier 

cmp, criterio más potente 

crv, criterio de la relación de verosimilitud 

Cut, casi todos (los) 

cump., criterio uniformemente más potente 

Da, b), espacio de las funciones en (a, b], continuas a la izquierda (en el punto a a 
la derecha) y que sólo tienen un número finito de saltos 

D, espacio de las estrategias del primer jugador (en el cap. 4) 

Do, varianza de la distribución Py 

2, espacio de las funciones de decisión en un juego estadístico 

E, matriz unidad 

emc., esperanza matemática condicional 

ex.m, estimación de la verosimilitud máxima 

€; familia exponencial de las distribuciones 

Ja), densidad de la distribución Pa respecto a la medida x 


JAX), función de verosimilitud igual (por definición) a J] fatx) 
taa 
F(x), por regla general, la función de distribución correspondiente a la distribución P 
Fa), función empírica de distribución 
Festa, distribución de Fisher 
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G, grupo de transformaciones de 2” en sí, correspondiente a la familia invariante 
he, cuantila de la distribución x? 

Hi, hipótesis 

Hr, distribución x? 

L, distribución concentrada en el punto x 


10) = MAO), 140) = Mo È ta 02 on, D, matriz de información de Fisher 
J 


Za, indicador del conjunto A 

Ko, clase de estimaciones con desplazamiento b = 5(8) 

Ko, clase de estifnaciones no desplazadas 

Ko, clase de estimaciones asintóticamente no desplazadas 

R?, clase de estimaciones asintóticamente centrales 

Ko. clase de estimaciones asintóticamente normales 0”, para las cuales Men(0* — 
— 07 => 0*(6), donde o*(6) es la varianza de la distribución normal límite para VA(9" — 0) 

Ke, (en el cap. 3) clase de criterios de dimensión e (de nivel 1 — 2) 

Ke, clase de criterios no desplazados de dimensión € 

Re, clase de criterios de nivel asintótico 1 — e 

Ke, clase de criterios de dimensión e para el enfoque parcialmente bayesiano 

RÊ", clase de criterios de dimensión asintótica e para el enfoque parcialmente bayesiano 

K,..0w.,1 Clase de criterios con valores fijos ay de las probabilidades de los errores de 
¡ésimo género, (el, .... 1 

Kae distribución de Cauchy 

ix, D = nfo) 

LIX, 0) = In f(X), función logarítmica de verosimilitud 

Lo.» distribución lognormal 

Me, esperanza matemática de la distribución Po 

M(E/U), esperanza matemática condicional £ respecto a la o-álgebra U 

M(Ẹ/n), esperanza matemática condicional E respecto a la variable aleatoria y 

n, volumen de la muestra 

Np, Np, portador de la distribución P con la función de distribución £ 

P, símbolo de la distribución, utilizado en distintos sentidos 

P(B/y), distribución condicional 

På, distribución empírica 

Po, distribución dependiente del parámetro 

9, familia de distribuciones 

Q, estrategia randomizada de la “naturaleza” (distribución a priori de 0) 

Qr, distribución a posteriori de 9 

Q, la peor distribución de ð (estrategia minimáx de la “naturaleza 

9(t/X), densidad de distribución a posteriori de 9 

R, recta real 

R”, espacio euclideo m-dimensional 

(R), condición de regularidad de la familia paramétrica en cuya virtud la función Vf) 
es continuamente derivable respecto a 6, y la información de Fisher es positiva y continua 

(RR), condiciones de regularidad de la familia paramétrica, que exigen el cumplimiento 
de las condiciones (Ao), (4) y (R), así como de la derivabilidad continua de segundo orden 
de la función /(x, 6) y de la existencia de la mayorante /() > 11” (x, £)!, para la cual la integral 
de Mol(x,) converge uniformemente hacia O 

S = S(X), estadística 

S?. varianza empírica 

Sk, varianza empírica correspondiente a la muestra X 


s- 9S 
a~t 
Ta, distribución de Student 
distribución uniforme en [a, b] 
u* =Vn(0" — 0), estimación normalizada de verosimilitud máxima 
w(i), (no siempre) proceso wieneríano 
w*(), puente browniano 
w"(1), proceso empírico 
xı — elemento de la muestra 
Xa = (xi, ~.» Xa) — muestra de volumen 7 
Piola = Xn — parte de una muestra infinita, constituida por primeros A elementos de 
esta última 
Xm, hésimo elemento de una serie variacional 
F, media empírica 
Z, espacio al cual pertenecen observaciones (espacio de fase de la muestra) 
(2; Bes P), espacio probabilístico muestral correspondiente a una observación 
(2”, Biz, P), espacio probabilístico muestral correspondiente a la muestra de volumen n 
x = (Xi, -:=s Xa), elemento de Z" 
au(x) — probabilidad del error de ¿ésimo género del criterio x 
B(8), potencia del criterio 3 
Ax(ó), función de potencia del criterio x 
Bris distribución beta 
Taa, distribución gamma 
$ = 8(X), (en el cap. 3) regla (criterio) de decisión o (en cap. 5) función de decisión 
3, estrategia del primer jugador 
fp, cuantila de orden p 
£5, cuantila muestral de orden p 
8, parámetro (estrategia de la “naturaleza”, 
6%, fronteras del intervalo confidencial para el parámetro 0 
0", estimación del parámetro 0 
ù, estimación bayesiana del parámetro 0, la cual corresponde a la distribución a priori Q 
$", estimación minimáx del parámetro 9 
Š, estimación de verosimilitud máxima del parámetro ð 
©, conjunto de valores posibles del parámetro 8 
9”, conjunto confidencial 
Ms cuantila de la distribución normal 
x = x(X), (en el cap. 3) criterio randomizado o (en los caps. 3 y 5) regla (criterio) rando- 
mizada de decisión 
x, estrategia randomizada del primer jugador 
xQ, criterio (estrategia) bayesiano correspondiente a la distribución a priori Q 
Too, Criterio bayesiano para el enfoque parcialmente bayesiano 
=, criterio (estrategia) minimáx 
*, criterio de la relación de verosimilitud 
x°, criterio uniformemente más potente 
Th, distribución de Poisson 


7» Símbolo que significa la coincidencia de las distribuciones de muestras o de variables 
aleatorias 
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7» signo de convergencia en probabilidad 

— , signo de convergencia casi segura (con probabilidad 1) 

=, signo de convergencia débil de las distribuciones (se utiliza tanto entre las variables 
aleatorias como entre las distribuciones) 

€, signo utilizado entre las designaciones de la muestra (de la variable aleatoria) y de 
la distribución: significa que la muestra fue extraída de una distribución dada (la variable 
aleatoria tiene una distribución dada) 

€, signo de convergencia débil. La relación & € P quiergpdecir que la distribución E, * 
converge débilmente hacia P cuando n — «o 
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— — Student 77 

— degenerada 82 
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— uniforme 79 
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Elipsoide de dispersión 113 

Enfoque osintótico de la comparación de 
estimaciones 107, 111, 117 
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— parcialmente bayesiano 319, 353 
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Estabilidad de las decisiones estadísticas 
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Estadística 33 
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270 
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Información de Fisher 162, 177, 210 


ÍNDICE ALFABÉTICO DE MATERIAS 599 


Juego de dos personas 491 
— estadístico $03 
— randomizado (promediado) 493, 496 


Lema de Neyman-Pearson 298 
— — — — generalizado 329 


Ley del logaritmo repetido (reiterado) 37, 
236 


— uniforme de los grandes múmeros 262 


Mediana muestral 32 

Método de distancia mínima 92 
momentos 90, 92 
sustitución 84 
verosimilitud máxima 95 
Momentos muestrales 32, 37 
Muestra 25 


Nivel de confianza 270 
— — significación del criterio 316 
— realmente alcanzable 317 


Orbita 195 


Portador de la distribución 33 
Potencia del criterio 296, 317 
Precio del juego 495 

Principio bayesiano 508 

— de invariación 184 

no desplazamiento 184, 332 
ruficiencia 184 


Probabilidad condicional 125 

— del error de ¿ésimo género 288, 292 
— — — de primer género 316 
Problema de Behrens-Fisher 437, 451 
Proceso empírico 47 

— poissoniano 44 

— wieneriano 47 

Puente browniano 47 


Región crítica 296 
Regresión 470 

— lineal 463 

Regresor 464 

Relación de verosimilitud 222, 251 
— monótona de verosimilitud 320 
Riesgo (función de riesgo) 502 
Robusticidad 430 


Serie variacional 29 


Teorema central uniforme del límite 263 

— de Gtivenko—Cantelli 29, 31 

q NeroanEisher (de factorización) 

— funcional del limite para los procesos 
empíricos 48 

“Teoremas de continuidad 38 


-álgebra suficiente 145 


— — — mínima 146 


A NUESTROS LECTORES: 


Mir edita libros soviéticos traducidos al español, inglés, 
francés, árabe y otros idiomas extranjeros. Entre ellos figu- 
ran las mejores obras de las distintas ramas de la ciencia 
y la técnica; manuales para los centros de enseñanza supe- 
rior y escuelas tecnológicas, literatura sobre ciencias natura- 
les y médicas. También se incluyen monografías, libros de 
divulgación científica y ciencia-ficción. 

Dirijan sus opiniones a la Editorial Mir, 1 Rizhski per., 
2, 129820, Moscú, 1-110, GSP, URSS. 


